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1.1 数值 线性 代数 基本 问题 
lll 计算 数学 介绍 

计算 数学 , 也 称 数 值 分 析 或 计算 方法 , 其 定义 可 以 参考 Golub 教授 的 History of numerical 
linear algebra: A personal view [14], 或 Trefethen 教授 的 Numerical analysis [40]. 一 般 来 说 , 计算 数学 
主要 人 研究 的 是 如 何 计算 数学 问题 的 近似 解 或 数值 解 , 包括 算法 的 收敛 性 和 稳定 性 , 以 及 解 的 误差 
估计 . 

从 事 现代 科学 研究 的 方法 有 三 种 : 实验 , 理论 和 科学 计算 . 科学 计算 就 是 通过 数学 建 模 将 实际 
问题 转化 为 数学 问题 , 然后 数学 问题 进行 离散 和 数值 求解 ,从 而 得 到 原 问题 的 近似 解 . 随 着 计算 机 
的 高 速 发 展 , 科学 计算 在 解决 现代 科学 技术 问题 中 所 起 的 作用 越 来 越 大 , 并 已 经 渗透 到 科学 技术 
的 各 个 领域 . 计算 数学 是 科学 计算 的 基础 , 其 研究 内 容 包 括 函 数 通 近 (代数 捅 值 与 最 佳 盘 近 ), 数值 
积分 与 数值 微分 , 数值 线性 代数 (线性 方程 组 求解 , 特征 值 与 特征 向 量 等 ), 非 线性 方程 (组 ) 数值 解 
法 , 常 微分 方程 数值 解法 , 偏 微分 方程 数值 解法 等 . 

家 自然 科学 基金 委员 会 关于 计算 数学 的 分 类 (2012): 

数学 (A01) 

。 计算 数学 与 科学 工程 计算 (A0117) 
- 偏 微分 方程 数值 解 (A011701) 
- 流体 力学 中 的 数值 计算 (A011702) 
- 一 般 反 问题 的 计算 方法 (A011703) 
- 常 微分 方程 数值 计算 (A011704) 
- 数值 代数 (A011705) 
- BEI Sits LAA (A011706) 
- 谱 方 法 及 高 精度 数值 方法 (A011707) 
- 有 限 元 和 边界 元 方法 (A011708) 
- 多 重 网 格 技术 与 区 域 分 解 (A011709) 
- 自 适 应 方法 (A011720) 
- 并 行 计算 (A011711) 
。 运 筹 学 
数值 分 析 的 任务 是 
。 设计 求解 各 种 实际 问题 的 高 效 可 靠 的 数值 方法 ; 
。 对 求 得 的 数值 解 的 精度 进行 评估 ; 
。 研究 数值 算法 在 计算 机 上 的 实现 . 
一 个 好 的 数值 方法 一 般 需 满足 以 下 几 点 : 
。 易于 在 计算 机 上 实现 ; 
。 有 可 靠 的 理论 分 析 , 即 收敛 性 稳定 性 等 有 数学 理论 保证 ; 
© 有 良好 的 计算 复杂 性 , 即 尽 可 能 地 节省 计算 时 间 和 存储 空间 ; 
。 要 有 具体 的 数值 试验 来 证 明 是 行 之 有 效 的 . 


11.2 ”数值 线性 代数 的 研究 内 容 


© 数值 代数 , 包含 数值 线性 代数 和 数值 非 线 性 代数 . 
© 数值 线性 代数 , 也 称 矩 阵 计算 , 主要 研究 以 下 问题 : 


- 线性 方程 组 求解 
Ar=b, AER” JEFF 
- 最 小 二 乘 问题 
min | Az — bila, AER”, m>n 


- 和 矩阵 特征 值 问题 
Axr =A\z, AER"™",2£4#0,rA€EC 


- FEE ay -AE Mae 
A’ Az =o7r, AER™”, 40,020 

- 其 它 : 广义 特征 值 问题 , 非 线性 特征 值 问题 , 矩阵 方程 , 特征 值 反 问题 , 张 量 计 算 ， 
。 主要 任务 

- 算法 设计 : 构造 计算 近似 解 的 方法 

- 算法 分 析 : 误差 估计 、 收 敛 性 、 稳 定性 、 计 算 复 杂 性 、 计 算 精 度 等 

- 算法 实现 : 编程 实现 、 软 件 开发 
© 基本 研究 方法 

EEE 

- 扰动 分 析 

- 舍 人 误差 对 算法 的 影响 

- 算法 的 收敛 速度 分 析 

- 工业 化 的 软件 实现 


| 号 ”问题 的 特殊 结构 对 算法 的 设计 具有 非常 重要 的 影响 . 


1.1.3 一 些 基 本 记号 


。 实 部 与 虚 部 : Re(z) 表示 复数 z 的 实 部 , Im(z) 表示 复数 z 的 虚 部 ; 
。 和 矩阵: 通常 用 大 写字 母 表示 , 如 A, B, XX ; 
。 癌 量 : 小 写字 母 , 如 72,y,z; 
。 标量 : 小 写字 母 或 希腊 字母 , 如 a, b,c, a, B ; 
o FEE: cT 和 AT 表示 向 量 和 算 阵 的 普通 转 置 , z* 和 4* RR e ee AF E 
。 下 标 : 用 aij, Ali, 站 或 (4 十 B)i; RANE; 
。 冒号 的 作用 : RA Matlab) 
- a:h:b 一 生成 一 个 等 差 序列 : a 为 首 项 ,hh 为 公差 ,最 后 一 项 <b 
当天 = 工时 ,可 简写 成 C :8 
- x(2:5) > [x(2), x(3), 2(4), x(5)] 
- A(1:3,2:5) > 4 的 第 1 至 第 3 行 与 第 2 至 第 5 列 组 成 的 子 和 矩阵 
- A(1:3,:) 一 4 的 第 1 至 第 3 行 组 成 的 子 和 矩阵 
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1.2 ”线性 代数 基础 
1.2.1 ”线性 空间 


线性 空间 是 线性 代数 最 基本 的 概念 之 一 定义 在 某 个 数 域 上 并 满足 一 定 条 件 的 一 个 集 
合 . 我 们 首先 给 出 数 域 的 概念 . 


定义 1.1 ( 数 域 ) 设 下 是 包含 0 和 1 的 一 个 数 集 , 如 果 正 中 的 任意 两 个 数 的 和 , 差 , 积 , 商 (除数 不 


为 0) 仍然 在 正中 , 则 称 下 为 一 个 数 域 . 


常见 的 数 域 有 : 有 理 数 域 Q, 实数 域 民 和 复数 域 C. 
定义 1.2 (线性 空间 ) 设 S 是 一 个 非 空 集合 ,下 是 一 个 数 域 . 在 S 上 定义 一 种 代数 运算 , MAMIE, 
记 为 “+”( 即 对 任意 a,b E S, 都 存在 唯一 的 YE S, 使 得 Y= 二 at p) 满足 

(1) BRB: a+B=B+a, Va, b ES; 

(2) AA: (a+ B)+y=at+(B+y7), Ya, b, yE S; 

(3) 零 元 素 : 存在 一 个 元 素 0, 使 得 w+0=aw，VaeES; 

(4) 逆 运 算 : 对 任意 a cS, 都 存在 负 元 素 6 ES, RH a+ 8 =0, 12 8 = o; 
定义 一 个 从 正 xS 到 S 的 代数 运算 , 称 为 数 乘 , 记 为 “”( 即 对 任意 hE 下 和 任意 aE S, 都 存在 唯 
— il BES, 184% B= k- a), AR 

(1) l-~a=a, 1€E€F,VaeSs; 

(2) k-(l-a)=(kl)-a, Vk,lEF, acs; 

(3) (k+l)-a=k-atl-a, Vk,leF,aes; 

(4) k-(at+ B)=k-at+k-8, VkEF, a, ß ES; 
Wak S 是 数 域 让 上 的 一 个 线性 空间 . 为 了 表示 方便 , 通常 省 略 数 乘 符号 , 即将 及 .a BM ka. 


例 1.1 常见 的 线性 空间 有 : 
。R" 一 所 有 交 维 实 向 量 组 成 的 集合 ,是 及 上 的 线性 空间 ; 
© Œ| 一 所 及 n 维 复 向 量 组 成 的 集合 , 是 C 上 的 线性 空间 ; 
e RO > BA m x n YSERA RE 合 ,是 及 上 的 线性 空间 ; 
e COn 一 所 有 mm x n 阶 复 矩 阵 组 成 的 集合 ,是 C 上 的 线性 空间 . 


定义 1.3 (线性 子 空间 ) KS 是 一 个 线性 空间 , W BS 的 一 个 非 空子 集合 . KFS 上 的 
加 法 和 数 乘 也 构成 一 个 线性 空间 , 则 称 W 为 S 的 一 个 线性 子 空间 , 有 时 简称 子 空间 . 


定理 1.1 RS 是 数 域 了 上 的 一 个 线性 空间 , ) 是 S 的 一 个 非 空子 集合 . 则 W 是 5S 的 一 个 子 空 


间 的 充 要 条 件 是 W 关于 加 法 和 数 乘 封闭 , 即 
(1) WHER a, BEW, Aat+Bew; 
(2) 对 任意 及 EF 和 任意 a CW, A ka € W. 


设 4 e Cmxn, 则 4 可 以 看 作 是 从 Cnm 到 C™ 的 一 个 线性 变换 (或 线性 映射 ). 我 们 分 别称 
Ker(A) Ê { re Œ” : Ar=0}CC" 


. 1-6 . 


和 

Ran(4) = {yeC™ : y = Ar, z € C” } c C™ 
为 4 的 零 空 间 ( 核 ) 和 像 空 间 ( 列 空间 , 值 域 ). 可 以 证 明 , Ker(A) 是 C 的 线性 子 空 间 , Ran(A) 是 
C™ 的 线性 子 空间 . 


设 zl 20,...,2% E C”, WE 
人 . 
span(z1, £2,..., k) 三 { ar + ant, + QT > &1,Q2,...;, Qk E C}, 


则 span(z1, zz .., £k) R C” 的 一 个 线性 子 空间 , 称 为 由 zi,z2, ,zk 张 成 的 子 空间 . 特别 地 ， 
记 span(A) 为 由 4 的 所 有 列 向 量 张 成 的 子 空间 . 易 知 


Ran(A) = span(A). 


记 dim(S) 为 线性 空间 S 的 维 数 , 设 A e Cmn, 则 有 
e dim(Ker(A)) = n — rank(A) 
e dim(Ran(A)) = rank(A) 
e dim(Ker(A)) + dim(Ran(A)) = n 
e dim(Ran(A’)) = dim(Ran( AT A)) 
定理 1.2 ( 维 数 公 式 ) HS, So 是 线性 空间 S 的 两 个 有 限 维 线性 子 空 间 , 则 Si; 4+ So FE S1 NS 也 
都 是 S 的 线性 子 空间 , 且 


dim(S1 十 S2) + dim(S1 N S2) = dim(S;) + dim(S2). 


定义 1.4( 直 和 ) KS, So 是 线性 空间 S 的 两 个 线性 子 空间 , 如 果 S1 十 S。 PUEDE xc 都 可 
以 唯一 表示 成 


L=%4+%2, zı E€ S1, £2 € So, 


则 称 Si + So 为 直 和 , 记 为 S1 9S2 


定理 1.3 KS), 52 是 线性 空间 S 的 两 个 线性 子 空 间 , 则 下 面 的 论述 等 价 
(1) Sı + So 是 直 和 ; 
(2) S1 N S2 = {0}; 
(3) dim(S1) + dim(S2) = dim(S; + S2); 
(4) S + So 中 的 零 元 素 表示 方法 唯一 , 即 若 0 = ri + 29, 21 E Sy, £2 E So, Mx, = x = 0. 


定理 1.4 KS 是 线性 空间 S 的 一 个 线性 子 空间 , MAAS 的 另 一 个 线性 子 空 间 So, 使 得 
S = S1 Q S2. 


1.2.2 WARS 


定义 1.5 (内 积 空间 ) 设 S 是 数 域 了 上 的 一 个 线性 空间 , 定义 一 个 从 S xS 到 正 的 代数 运算 , 记 
为 “《(:，.)” 即 对 任意 x,y € S, 都 存在 唯一 的 六 EF, RF f = (ey) 如 果 满足 


(1) (z,y)=(y,2), Vr,y ES; 

(2) (w@+y,z)=(2,y)+(2,z), Va,y,z2€S; 
(3) (kx, y)=k(a,y), VEEF, 2, y ES; 

(4) (a,c) > 0, 等 号 当 且 仅 当 w= 二 0 时 成 立 ; 


Wak (.,.) 为 6 上 的 一 个 内 积 , 定义 了 内 积 的 线性 空间 称 为 内 积 空间 . 


村 别 地 , 我 们 称 定义 在 实数 域 尽 上 的 内 积 空间 为 Euclidean 空间 (或 欧 氏 空间 ), 定义 在 复数 域 C 上 
的 内 积 空间 为 本 空间 . 


例 1.2 在 线性 空间 C 上 定义 内 积 

(ty) = V7 = Do 
W C 构成 一 个 内 积 空 间 . 
例 1.3 对 任意 A, B € R™”, 定义 


(A, B) = tr(BT A), 


其 中 tr(-) 表示 矩阵 的 迹 , 即 对 角 线 元 素 之 和 , 则 可 以 证 明 (A, B) 是 一 个 内 积 , 因此 R” 构成 一 
个 欧 氏 空间 . 


定义 1.6 (EZ) RS 是 内 积 空 间 , z,V ES, WR (x,y) = 二 0, 则 称 xz 与 y 正 交 , 记 为 XY1Vy; 设 S561 是 
S 的 子 空 间 , x ES, 如 果 对 任意 ye ol 都 有 (x, y) =0, Wee 5 Si ER, iA rls S, So 
是 S 的 两 个 子 空间 ， 如 果 对 任意 ZE Si, 都 有 tLSo, 则 称 Sı 与 S2 EX, iA S1LSo. 


定理 1.5 KS), So 是 内 积 空间 S 的 两 个 子 空间 , 如 果 S, 1S, 则 S1 + So 是 直 和 . 


定义 1.7 ( 正 交 补 ) RS, 是 内 积 空间 9 的 一 个 子 空间 , 则 Si 的 正 交 补 定义 为 


st 人 2fzesS : als }. 


定理 1.6 KS, 是 内 积 空间 S 的 一 个 有 限 维 子 空间 , 则 Si 存在 唯一 , 且 


S=S5, 08. 


1.23 向量 范 数 


定义 1.8 (向 量 范 数 ) 车 函数 六 :Cn 一 C 满足 


(1) f(z) > 0,Vz€E C" 且 等 号 当 且 仅 当 x 二 0 时 成 立 ; 
(2) flax) = |a|- f(x) Vx € C”, a € C; 
(3) f(x +y) < f(z) + fly), Yz, y € C”; 

则 称 f(z) AC" 上 的 范 数 , 通常 记 作 || . | 


OE AKASH, 我们 可 以 定义 实数 空间 R 上 的 向 量 范 数 . 


例 1.4 常见 的 向 量 范 数 : 
。 工 范 数 : zi = ea] + [x2] +--+ + len 


e |lclle = Vln tea [oaks 
ei llelleo = max lal 
1<i<n 
p n 1/p 
© pH: llellp = a a) Hepes. 


i 二 1 


定义 1.9 ( 范 数 的 等 价 性 ) RK] le á I- le 是 C" 空间 上 的 两 个 向 量 范 数 , 若 存在 正常 数 cl co， 
使 得 


cillzlla < llzlls < ellla 


对 任意 ze Cn 都 成 立 , MAE || lla 与 | la 是 等 价 的 . 


定理 1.7 C 空间 上 的 所 有 向 量 范 数 都 是 等 价 的 , 特别 地 , 有 


lzlla < llel < Vn llzll, 
lællæ < lzla < vn lizi, 


lzlle < Hall, < n læ]. 


OE 有 限 维 赋 范 线性 空间 上 的 所 有 范 数 都 是 等 价 的 . 


定理 1.8 (Cauchy-Schwartz 不 等 式 ) 设 (.,:) 是 Cn" 上 的 内 积 , 则 对 任意 7x,y cc, 有 


(x, y)|? < (zz) - (y, y). 


推论 1.9 7K (-,-) 是 Cr 上 的 内 积 , 则 lell 全 V(x,z) 是 Cr 上 的 一 个 向 量 范 数 . 


定理 1.10 ( 范 数 的 连续 性 ) 设 上 .| 是 C* 上 的 一 个 向 量 范 数 , 则 f(x) 会 zl 是 Cm" 上 的 连续 函数 . 


定义 1.10 (向 量 序列 的 收敛) {oO} RC 中 的 一 个 向 量 序列 , RAL r CC”, 使 得 


‘ k 
lim af = z; tE eee (2 


则 称 {s ( 按 分 量 ) SKS x, 记 为 Jim clk) = x. 
一 oo 


定理 1.11 设 ‖ :| 是 Cn 上 的 任意 一 个 向 量 范 数 , 则 Jim a’) = r 的 充 要 条 件 是 
一 co 


lim ||) — xl] = 0. 
k-0o 


1.2.4 和 矩阵 范 数 

定义 1.11 (矩阵 范 数 ) 若 函 数 CCAR 
(1) f(A) > 0,Y Ae C 且 等 号 当 且 仅 当 4 = 0 时 成 立 ; 
(2) f(aA) = la|- 74V4EeCnmxn a € C; 


(3) F(A + B) < f(A) + f(B) VA, BEeC™",; 
Was f(x) A Cr 上 的 范 数 , 通常 记 作 || - |]. 


Ww || | Ee C™" 上 的 范 数 , AMER A es Cmx” 和 任意 zeC" 有 
lazls All llall, (1.1) 
SUP EEE || + || 与 向 量 范 数 相 容 , 这 里 的 4z|| 和 ell 分 别 为 Cm 和 C" 上 的 向 量 范 数 . 
we 定义 中 的 COX” 可 换 成 Cmxn. 


号 ” 类似 地 ,我 们 可 以 定义 R” EREKE TEZ. 


E 在 不 加 特别 指出 时 , 本 讲义 中 所 讨论 的 矩阵 范 数 都 是 指 相 容 范 数 . 


例 1.5 常见 的 矩阵 范 数 : 


© FR 
n nm 
Alle = | > > layl? ; 
这 1 j=l 
© 7D- 苑 数 
|| Az|| 
| All, = sup P 
zr#0 |zllz 


引 理 1.1 ( 算 子 范 数 , 诱导 范 数 , 导出 范 数 ) A | || 是 下 "上 的 向 量 范 数 , 则 


|All = 


x || 4z| 


zeRn #0 |[2|| zl=i 


ZR" 上 的 范 数 , 称 为 算 子 范 数 , 或 诱导 范 数 , 导出 范 数 . 


引 理 1.2 可 以 证 明 : 
(1) 1- 范 数 ( 列 范 数 ) || Al], = hes (> e) ; 


(2) oo- 范 数 (1498.30): |All = max (3: a) ; 
J= 
(3) 2-6% ||Allo = /p(ATA). 


定理 1.12 (矩阵 范 数 的 等 价 性 ) RX" 空间 上 的 所 有 范 数 都 是 等 价 的 , 特别 地 , 有 
1 
Jll < lAl < V” Alle; 
| 
io 
1 
ZA < |All: < n lllo, 


|All < ||Alloo < Vn Alle, 


1 


alah < ||Allr < Vn ||Alle. 


性 质 1.1 范 数 的 性 质 : 
(1) HEAR ÉA ||- h A AF < 4 
(2) 对 任意 算 子 范 数 | - ||, A Arl] < Al lel ABI <All BI, 即 算 子 范 数 是 相 容 范 数 ; 
(3) |‖4zllz < ||Allr :lzllz, || ABlle < \|Alle Bl PF- 范 数 是 相 容 范 数 ; 
(4) 也 - 范 数 不 是 算 子 范 数 ; 
(5) || - |lo 4? || - |r SBR, PES BE U, V, A 


||UAll2 = ||AV|l2 = |UAV]|2 = |All , 
||UAlle = ||AV |e = [UAV |p = ||Alle 


(6) AT] = ||Allz AT Ila = [Allo 5 
(7) 若 4 是 正规 矩阵 , 则 || Ally = p(A). 


1.2.5 投影 变换 


设 Si Fil So 是 内 积 空间 S 的 两 个 子 空 间 , AS = S @ So. WS 中 的 任意 向 量 z 都 可 唯一 表 
示 为 


£ 一 1 十 Z2， Tı E Sy, T2 E€ So. 
我 们 称 zl X x W S Bl) S 上 的 投影 , 记 为 zx|s,. 
设 线性 变换 已 : S 一 S. 如 果 对 任意 z c S, 都 有 


P= lsi, 


WEK P ÆA S 沿 子 空间 So 到 子 空间 Si 上 的 投影 变换 (也 称 投影 算 子 或 投影 矩阵 ). 
设 忆 是 投影 变换 ,容易 验证 , Sı = Ran(P), S2 = Ker(P), 即 存在 直 和 分 解 


S = Ran(P) 9 Ker(P). 


定理 1.13 42H PCR™” 是 投影 矩阵 的 充 要 条 件 是 王 是 紧 等 矩阵 , 即 P= 


性 质 1.2 PER ™” 是 一 个 投影 矩阵 , 则 
(1) 了 工 一 尸 也 是 一 个 投影 矩阵 , 且 Ker(P) = Ran(T — P); 
(2) PT 也 是 一 个 投影 矩阵 . 
性 质 1.3 8 P eR” 是 一 个 投影 矩阵 , 则 
R” = Ran(P) © Ker(P). 
反之 , 若 S1 和 So HR 的 两 个 子 空间 , AR = S1 OS, 存在 唯一 的 投影 矩阵 P, 使 得 
Ran(P)=S1, Ker(P)= 9>， 


即 对 任意 向 量 x CR", A 
Pres, x—PrEs. 


由 上 面 的 性 质 可 知 , 投影 矩阵 由 其 像 空间 和 零 空间 唯一 确定 . 


性 质 1.4 KS, Fo So 是 及 "的 两 个 子 空间 , 且 维 数 相同 . HRS, OSL = {0} (A R” = Si1@ St), 
则 存在 唯一 的 投影 矩阵 P, 使 得 


Ran(P) = Sı, Ker(P) = SŁ, 
B P&S 上 与 Sy 正 交 的 投影 矩阵 . 另外 ， 


Pr=0 SARS el So. 


设 Sy Fil Sp FE R” AIS m 维 子 空间 , H.R” = 51@ Sz. S v, 02,...,Um All wi, wa, wm 分别 
是 Sy FI S2 的 一 组 基 . 


性 质 1.5 8 P eR” £S, 上 与 So 正 交 的 投影 矩阵 , N 


P=V(WiV)-iW’, 


其 中 V = [v1, V2,---,Um], W = [Wry Ww2,..., Wml. 


E 虽然 投影 矩阵 PP 由 子 空间 Sy 和 So 唯一 确定 , 但 其 矩阵 表示 形式 (1.2) 并 不 唯一 | 


定理 1.14 ( 正 交 投影 ) KS, 是 内 积 空 间 5 的 一 个 子 空间 , x E S, 则 x 可 唯一 分 解 成 


al 
L=%14 T2, zı E€ Si, Z2 E S], 


其 中 zl RA rE S 上 的 正 交 投影 . 


GPRM S 沿 子 空间 Sp 到 子 空间 Si 上 的 投影 变换 , 则 称 PP 为 子 空间 Sy 上 的 正 交 投影 变换 (也 
Pk 正 交 投影 算 子 或 正 交 投影 矩阵 , 记 为 Ps WR PP 不 是 正 交 投影 变换 , 则 称 其 为 斜 投影 变换 
(oblique projector ) 


定理 1.15 投影 矩阵 P cR” 是 正 交 投影 矩 阵 的 充 要 条 件 PT =P. 


设 忆 是 子 空间 Si 上 的 正 交 投影 变换 . > v1, 02,..., Um 是 51 的 一 组 标准 正 交 基 , 则 
P=vv’'. 
MUR 1.6 PER” 是 一 个 正 交 投 影 矩 阵 , 则 
|Plle =1, 


且 对 Vr eR", 有 
lz = ||P] + |(T — P)zllz. 


下 面 是 关于 正 交 投影 矩阵 的 一 个 很 重要 的 应 用 . 
定理 1.16 KS, 是 了 "的 一 个 子 空间 , z eR? 是 一 个 向 量 . 则 最 佳 逼 近 问 题 


min lz — zl 


的 唯一 解 为 


a” = Psa 


Bp S 中 距离 z 最 近 (2- 范 数 意 义 下 ) 的 向 量 是 > 在 SI 上 的 正 交 投影 . 


推论 1.17 REE ACR” 对 称 正定 , 向 量 zx eS CR. 则 入 是 最 佳 逼 近 问 题 


min lz — zlla 


的 解 的 充 要 条 件 是 
A(a* — z) L Sy. 


、3 工 
这 里 llz — z||4 = ||A2(@ — z)|l2. 


1.2.6 ”常见 的 特殊 矩阵 


© SOM PMR: A € R?”*” H AT = A; 
e Hermite 矩阵 (Hermitian matrix): A* = A; 
。 反 对称 矩阵 (skew-symmetric matrix): AT = —A; 
e 反 Hermite 矩阵 (skew-Hermitian matrix): A* = —A; 
o 正规 矩阵 (normal matrix): A*A = AA* ; 
© Fase (unitary matrix): U*U = UU* = T; 
© 正 交 和 矩阵 (orthogonal matrix): Q € R”*” H. QTQ = QQ? =T; 
© XA HEM (diagonal matrix): a;; = 0 for i A j, W: A = diag(a11, a22,- . - , Ann) ; 
。 三 对 角 和 矩阵 (tridiagonal matrix): a;; = 0 for |i — j| > 1, 记 为 : A = tridiag(aii—1, aii, i641) 3 
。 上 三 角 和 矩阵 (upper-triangular matrix): ai; = 0 for i > j ; 
。 下 三 角 和 矩阵 (lower-triangular matrix): aij = Ofori < j; 
© 带 状 矩阵 (banded matrix): a;; 4 0 only if —b, < i — j < by, FEP bu FI by HAE BR, 分 别称 
为 下 带宽 和 上 带宽 , bu +b +1 WA A 的 带宽 (bandwidth); 
。 置换 矩阵 (HEY AM, permutation matrix): 将 单位 矩阵 了 工 的 列 重 新 排列 所 得 到 的 矩阵 ; 
e 上 Hessenberg 矩阵 (upper Hessenberg matrix): a;; = 0 fori — j > 1; 
e 下 Hessenberg 和 矩阵 (lower Hessenberg matrix): a;; = Ofori —j < 1; 
© 块 对 角 和 矩阵 (block-diagonal matrices): A = Diag( A11, A22, . . - , Akk) ; 
o 块 三 对 角 和 矩阵 (block-triangular matrices): A = Tridiag(A;;-1, Aii, Aii+1)s 
© Toeplitz 42: 
| to ta ee e 


t : 
Rel | 
bs 
Pa ti to | 
e 循环 矩阵 (circulant matrix): 
C0 Cm 一 1 Cn—2 EEN C1 
Cy co Cn—1 aa C2 
CC 一 | c2 C1 Co n 63 
Cn—1 Cn-2 Cn—3 pee Co 
© Hankel 矩阵 : 
ho hy ©- hr 2 hna 
h o o P he 
ahs 
Rn-2 7 < hm- 
pa hn = hon_2 haa 


1.2.7 ”对 角 占 优 矩 阵 


定义 1.12 设 4e 了 "xm, 车 


Jail] > X loi 
JJ 天: 
对 所 有 i 二 1,2,...,n 都 成 立 , 且 至 少 有 一 个 不 等 式 严格 成 立 , 则 称 4 为 弱 行 对 角 占 优 的 . 若 
对 所 有 1 = 1,2,...,n 不等式 都 严格 成 立 , 则 称 4 是 严格 行 对 角 占 优 的 . 通常 简称 为 弱 对 角 占 
优 和 严格 对 角 占 优 . 


OE 类 似 地 , 可 以 定义 弱 列 对 角 占 优 和 严格 列 对 角 占 优 . | 
定理 1.18 BACR™” 是 严格 对 角 占 优 和 矩阵, 则 4 非 奇 异 . 


证 明 . 我 们 使 用 反 证 法 . 假设 4 奇异 , 即 Ar = 0 存在 非 零 解 , 不 妨 设 为 z = [x1, x2,...,zn] .不 失 
一 般 性 , 设 |zll。 = [erl W |zx| > 0. 考察 4z = 0 的 第 有 个 方程 : 


Qk121 十 Qk202 十 :十 Qkn2n = 0. 


可 得 
1 n 
|akk| = Iza p2 Uti] S 3 laxj| : [zk <5 laxjl, 
j=1,I#1 j=1,IA1 j=l GFA 
这 与 4 严格 对 角 占 优 予 盾 . 所 以 4 非 奇 异 . 口 


12.8 ”特征 值 与 特征 向 量 
定义 1.13 设 AeR"X", 称 p(\) = det(A — AI) A 4 的 特征 多 项 式 , 其 零点 就 是 4 的 特征 值 . 


定义 1.14 设 4E 了 "xn. 车 存在 和 eC 和 非 零 向 量 x,y ECm 满足 


Ax = Xx, yi A= dy", 


则 称 入 为 4 的 特征 值 , x 为 A 对 应 于 入 的 ( 右 ) 特征 向 量 ,y 为 4 对 应 于 入 的 左 特 征 向 量 , 并 称 
(X;zZ) 为 4 的 一 个 特征 对 (eigenpair). 


于 特征 值 的 几 个 说 明 ; 

。 只 有 当 4 是 方 阵 时 , 才 具 有 特征 值 与 特征 向 量 ; 

。 实 和 矩阵 的 特征 值 与 特征 向 量 有 可 能 是 复 的 ; 

。 刀 阶 矩阵 总 是 存在 郊 个 特征 值 ( 其 中 可 能 有 相等 的 ) ; 

。 特征 值 有 代数 重 数 和 几何 重 数 ; 

。 相似 变换 不 改变 矩阵 的 特征 值 ; 

。 JERE A 的 所 有 特征 值 组 成 的 集合 称 为 4 的 谱 , 通常 记 为 (A). 


定义 1.15 HACR"™”, 若 存在 一 个 非 奇 异 矩 阵 X c rxn, 使 得 


X-1AX =A, (1.4) 


Hp Acx 是 对 角 矩 阵 . 则 称 4 是 可 对 角 化 的 , 矩阵 人 的 对 角 线 元 素 即 为 4 的 特征 值 , 分 解 
(1.4) 称 为 矩阵 A 的 特征 值 分 解 或 谱 分 解 . 


定理 1.19 设 ACR”, 则 
(1) 4 可 对 角 化 当 且 仅 当 A 有 nn 个 线性 无 关 的 特征 向 量 ; 
(2) A 可 对 角 化 当 且 仅 当 A 的 所 有 特征 值 的 代数 重 数 与 几何 重 数 都 相等 ; 
(3) 若 A4 有 nn 个 互 不 相等 的 特征 值 , 则 4 可 对 角 化 


1 1 
定理 1.20 (Bendixson) 设 AeC"" 令 万 = 5(A + A*), S = 5(4 一 A*). WA 


Mmin(H) < Re(A < 
Amin(tS) < Im(A(A)) < 


其 中 Rel) 和 Im(.) 分 别 表示 实 部 和 虚 部 


这 个 定理 告诉 我 们 , 一 个 矩阵 的 特征 值 的 实 部 的 取 值 范围 由 其 Hermite 部 分 确定 , 而 虚 部 则 由 其 
反 Hermite 部 分 确定 . 


定理 1.21 RAHAA TEETAR ERA. 即 当 矩阵 的 元 素 发 生变 化 时 , 其 特征 值 的 变化 


是 连续 的 . 


该 结论 可 以 通过 多 项 式 堆 点 关于 多 项 式 系数 的 连续 性 得 到 . 
Gerschgorin 圆 盘 定理 
iz 4 = [aij] E CTY”, 定义 集合 
n 
Dil zEC: |z—ay| < SS layl, i=1,2,...,n. (1.5) 
j=l jFi 
这 就 是 4 的 n 4 Gerschgorin 圆 盘 . 


定理 1.22 (Gerschgorin 圆 盘 定理 ) 设 A = [aij] € Cn"xn". 则 A 的 所 有 特征 值 都 包含 在 A 的 


Gerschgorin 圆 盘 的 并 集中 , BP o(A) C U Di. 
i=1 


i= 


证 明 . 设 和 是 4 的 特征 值 ,对 应 的 非 零 特征 向 量 为 > = [zl 22... 2n]? e C”, BI 4z = Xx. 不 失 
一 般 性 , 设 |zll。 = leih WU Jeil > 0. 考察 Ax = Xz 的 第 i 个 方程 可 得 


n 
AL; 一 Qiiti = ò Qij Tj: 
j=1,j#1 


因此 


n n nm 


Sagal SS 1. (tal _ Slay 
Aiygtj| > [aij] T> laijl. 
|zi| 


j=1,jA1 j=l gj Fi j=l gj Fi 
所 以 入 Ee Dj. O 


将 A 的 非 对 角 线 元 素 换 成 rai 其 中 0 < 7 < 1, PAMARE FEER IESE, 我们 
就 可 以 得 到 下 面 的 结论 . 


定理 1.23 设 A= [ay] € C, HR Ü Di 可 分 解 成 两 个 不 相交 的 子 集 5 Fo T, 即 
Al 


2 


Up.=sUr 且 S()r =6. 
i=1 


假定 9 h k AAR, mT AHE n-k NARAR. 则 5 中 恰好 包含 4 的 大 个 特征 值 ( 重 特 


征 值 按 重 数 计 算 ) 而 工 中 则 包含 4 的 其 它 n 一 上 个 特征 值 


n 


定理 1.24 HA = [ay] E C 不 可 约 . 如 A 的 一 个 特征 值 和 在 U Di; 的 边界 上 , 则 它 必 定 在 所 
i=1 
AMA Di 的 边界 上 AAL). 


证 明 . 参见 [47]. z 


推论 1.25 设 4= [ay] E C" 不 可 约 . 如 入 在 UD 的 边界 上 , 但 至 少 有 一 个 圆 盘 的 圆周 不 经 
i=1 
过 入 则 它 必定 不 是 4 的 特征 值 . 


引 理 1.3 FACR™AAQTABHA FH, 则 A 非 奇 异 


证 明 . 使 用 Gerschgorin 圆 盘 定理 , 可 参见 [47]. 口 


1.2.9 ”对称 正定 矩阵 
定义 1.16 设 4ECnxn. 
e 车 对 所 有 非 震 向 量 ZzEC" 有 zx*4z > 0 则 称 4 为 Hermite 半 正 定 ; 进一步 , 若 对 所 有 非 替 


向 量 zECn 有 zxr4z > 0, 则 称 A A Hermite IEE; 
e 若 对 所 有 非 震 向 量 Zz CC" A Relr*Ar) > 0, 则 称 4 是 半 正 定 的 ; 进一步 , 若 对 所 有 非 堆 向 
E r € Cn" 有 Re(x*Ax) > 0, N4 A 是 正定 的 . 


IS 篆 对 所 有 向 量 x e C%* 有 x*Axz CR, Wl) A* = A. Alt, & A & Hermite ( 半 ) 正定 的 , 则 4 必 
定 是 Hermite 和 矩阵 . 


| 号 正定 和 半 正 定 矩 阵 不 一 定 对 称 或 Hermite ， | 


1 : r 
定理 1.26 HACC ™™ MALR (FER) 的 充 要 条 件 是 矩阵 及 二 了 (4 十 A*) EZ (FER) 


定理 1.27 HACR™”, MALE (FEE) ARERIA ER AE r eR” Ax Ar > 0 
(x? Ax > 0). 


下 面 ,我 们 列 出 关于 Hermite AF) 正定 矩阵 的 一 些 常 用 性 质 . 

定理 1.28 设 AecC"x" 是 一 个 Hermite 半 正 定 和 矩阵 ,kk 是 一 个 给 定 的 正 整 数 . 则 存在 一 个 唯一 的 

Hermite 半 正 定 和 矩阵 已 ECnxm 使 得 

B*=A 
同时 , 我 们 还 有 下 面 的 性 质 : 

(1) BA = AB, 且 存 在 一 个 多 项 式 p(t) 使 得 B = p(A); 
(2) rank(B) = rank(A), Ast, & A 是 正定 的 , 则 BB 也 正定 ， 
(3) 如 果 4 是 实 和 矩阵 的 , 则 B 也 是 实 矩 阵 . 


Hermite 正定 矩阵 与 内 积 之 间 有 下 面 的 关系 . 
定理 1.29 设 (.,.) 是 Cn" 上 的 一 个 内 积 , 则 存在 一 个 Hermite ER EH A c xn 使 得 


(x,y) = y* Az. 


反之 , 若 4ECnx 是 Hermite 正定 矩阵 , 则 


f(x,y) Sy Ax 


是 Cn" EM —4 AR. 


| 号 上 述 性 质 在 R" 中 也 成 立 . | 


1.2.10 不 变 子 空间 


定义 1.17 X A cR”, PRN SCR”. Z ASC S, 即 对 任意 ZEGS, 都 有 4z ecS, 则 称 S 为 4 
的 一 个 不 变 子 空间 . 


定理 1.30 设 zi,z2...,zm 是 4 的 一 组 线性 无 关 的 特征 向 量 , 则 span{zi, £2,..., £m} Æ A K 
一 个 m 维 不 变 子 空间 . 


定理 1.31 HACER", X e R”*k H rank(X) =k. A span(X) Æ AMAEFSMMHARBRG 
是 存在 一 个 矩阵 B < R*X* 使 得 


AX = XB, 


-1-18- 


| 此 时 , B 的 特征 值 都 是 4 的 特征 值 . | 


WEAR. 我 们 首先 证 明 必 要 性 . 设 span(X) 是 4 的 不 变 子 空间 , 并 设 X = [x1, 20,..., £p] W 
Ax; € span(X). X rank(X) = k, EEH {fzl, za ,zi 构成 子 空间 span(X) 的 一 组 基 . 所 以 
有 


Aaj = bijz + b2j£2 十 :十 DDN F= 2 
其 中 by E RR 是 线性 表 出 系数 . 将 上 式 写 成 矩阵 形式 即 为 


AX=XB 其 中 B= [b,j] eR***. 


其 次 证 明 充分 性 . 设 存在 矩阵 Boe REX, (84 AX = XB. 则 Arj 为 x1, 02,...,0% 的 线性 
HE. 又 {x1,20,..., £k} H span(X) 的 一 组 基 , 所 以 对 任意 x e span(X) 都 有 Ax € span(X), B 
span(X) 是 4 的 一 个 不 变 子 空 [A] 

下 面 证 明 B 的 特征 值 都 是 4 的 特征 值 . 将 和 扩充 成 一 个 非 奇 异 的 方 阵 , 即 存在 矩阵 
X e 有 2xo ,使 得 站 = [X, X] e R"x" 非 奇异 . 将 Y-1 写成 分 块 形式 : Yl = z| ste 

2 
Zi E REX", Za e 有 wm 局 xn. 由 等 式 Y-1Y = hyn AE ZX = Ikxk, Z2X = 0. X AX = XB, fF 
以 
124X ZAX) | 
[ZAX ZAX| 


B ZAX 
0 Z AX] 


ZiXB Z,AX| | 
ZXB ZoAX| 


Zı 
2 


因此 B 的 特征 值 都 是 Y-1A4Y 的 特征 值 .由 于 4 与 了 -147 相似 ,它们 具有 相同 的 特征 值 . 定理 结 
论 成 立 . 口 


Y-'AY = 


推论 1.32 ACR”, X E 有 nx H rank(X) = k. 若 存在 一 个 矩阵 已 c RX" 使 得 AX = 


XB, Wl (A, v) 是 B 的 一 个 特征 对 当 且 仅 当 (A, Xv) 是 A 的 一 个 特征 对 . 


1.2.11 Jordan 标准 型 


在 计算 和 矩阵 的 特征 值 时 ,一 个 基本 的 思想 是 通过 相似 变换 , 将 其 转化 成 一 个 形式 尽 可 能 简单 
的 矩阵 , 使 得 其 特征 值 更 易于 计算 . 在 这 里 , 我 们 介绍 两 个 非常 有 用 的 特殊 和 矩阵: Jordan 标准 型 和 
Schur 标准 型 . 


定理 1.33 4 A cR”, WAAR X CC", 使 得 


Jı 
J2 


X-1AX = 


-1-19- 


其 中 .的 维 数 等 于 入; 的 代数 重 数 , 且 具 有 下 面 的 结构 


Ji ,| 


这 里 的 vi 为 Ni HILT EH, Jip AA Jordan 块 , 每 个 Jordan 块 对 应 于 一 个 特征 向 量 . 


Jordan 标准 型 具有 以 下 性 质 : 
© Jordan 块 的 个 数 等 于 A 的 线性 无 关 的 特征 向 量 的 个 数 ; 
© A 可 对 角 化 的 充 要 条 件 是 每 个 Jordan 块 都 是 1 x 1 的 , EIN X 的 列 向 量 就 是 4 的 特征 向 量 ; 
e 所 有 可 对 角 化 矩阵 组 成 的 集合 在 所 有 和 矩阵 组 成 的 集合 中 是 稠密 的 ; 
。 4 是 正规 矩阵 (474= AAT ) 的 充 要 条 件 是 4 可 对 角 化 且 和 是 酉 矩阵 . 
Jordan 标准 型 在 理论 研究 中 非常 有 用 , 但 数值 计算 比较 困难 , 目前 还 没有 找到 十 分 稳定 的 数 
值 算法 . 下 面 我 们 介绍 一 个 比较 实用 的 标准 型 : Schur 标准 型 . 


1.2.12 Schur 标准 型 
定理 1.34 X Acx, MHE—-4+ BEE U c rxn 使 得 


Ma. Figs es | 
0 A2 


| 或 A=URU", 


Ô zw O An 


HP DY, A2,.-.,An 是 4 的 特征 值 (可 以 按 任意 顺序 排列 ). 


证 明 . 我 们 对 使 用 归纳 法 . 
当 二 1 时 ,结论 显然 成 立 . 
假设 结论 对 所 有 阶 数 不 超 过 n — 1 的 矩阵 都 成 立 . 考虑 n 阶 矩阵 4Ae Cn, BEA EE 4 的 一 个 
特征 值 , 其 对 应 的 特征 向 量 为 z e C”, E llelo = 1. 构造 一 个 以 z 为 第 一 列 的 西 和 矩阵 六 = [e, Š]. 
于 是 


r* Arz wv AX 
X*Ar X*AX 


Ala, X| = 


fra 
Vv * 


X*AX = 
X 


因为 z*4z = Xzxz = à, H. X* Arx = X* (Ax) 一 入 Xrz = 0, 故 


入 AX 
0 X*AX 


à Arp 
0 Ags 


A 


rl 


X*AX = | 


其 中 A ? COo-Dxo-D 根据 归纳 假设 , 存在 本 矩阵 U € Cr-1)x(n—1) 使 得 UP Ago = Ř E€ 
Co-Dx-D 是 一 个 上 三 角 和 矩阵 . 令 


- 1-20 . 


则 有 
1 
pagel" 9} xxax|t 9 
0 U* 0 Č 
— fl Of} JA 4o |1 0 
-Jo OF). 1 Ase! lo UD 
O [A Apt 
~ Jo DAU 
ay AU AR. 
0 R 


HF RE LSE, eR WEA ESSER, HOM PARTE REE A 的 特征 值 
由 归纳 法 可 知 , 定理 结论 成 立 . 口 
关于 Schur 标准 型 的 几 点 说 明 : 


© Schur 标准 型 可 以 说 是 西 相 似 变化 下 的 最 简 形 式 ; 
。 定理 中 的 UV 和 有 R 不 是 唯一 的 , 且 的 对 角 线 元 素 可 以 按 任意 顺序 排列 . 


推论 1.35 HAE Cr”, m 


e 4 是 正规 矩阵 当 且 仅 当 (1.6) PH REM AEH; 
e A & Hermite 244 A424 (1.6) 中 的 REE AH. 


众所周知 , 当 4 EKET, 其 特征 值 和 特征 向 量 仍 可 能 是 复 的 . 但 在 实际 计算 中 ,我 们 希望 避免 
复数 运算 . 下 面 我 们 给 出 实 Schur 标准 型 (或 拟 Schur 标准 型 ). 


定理 1.36 设 4e 了 "xm 则 存在 正 交 矩 阵 Q CR”, 使 得 


Q” AQ =T, 


HPT eR” 是 MWEZA, MT ERLEA, 且 对 角 块 为 1 x 1 或 2 x 2 的 块 和 矩阵 . 若 对 
角 块 是 1 x 1 的 , 则 其 就 是 A 的 一 个 特征 值 , 若 对 角 块 是 2 x 2 的 , 则 其 特征 值 是 4 的 一 对 共 罗 
复 特 征 值 . 


证 明 . 同样 可 以 使 用 归纳 法 . 

设 入 是 4 的 一 个 特征 值 . 若 入 是 实 的 , 则 存在 一 个 对 应 的 实 特征 向 量 , 后 面 的 证 明 与 定理 1.34 
的 证 明 类 似 . 

若 入 是 复数 , 设 其 对 应 的 单位 复 特征 向 量 为 u. 由 于 


Ai = Au = Au = Ati = Ad, 


故 (A, a) 也 是 A 的 一 个 特征 对 . & 
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EI a, 0 HWA u ASA ERB, BE e R”, o e R”. 所 以 由 定理 1.30 可 知 , span{a, ù} = span{u, u} 
是 4 的 一 个 不 变 子 空间 . 将 ù, 0) 进行 正 交 化 , BIE TES TE 2S EE Q c R?” mA EZME 
阵 R c R? 使 得 (a, 0] = QR. Wl span{Q} = span{a, 0} tht A 的 不 变 子 空间 , 由 定理 1.31 可 知 ， 
存在 矩阵 B c€ R?? 使 得 AQ = QB. 将 扩充 成 一 个 正 交 和 矩阵 , 即 存在 矩阵 Q e R02 使 得 
(Q, Â| 是 正 交 矩阵 . 于 是 有 


a oF ra a] |QTAQ QTAQ| |B QTAQ 
ol alae] = lóra oraal lo or40|， 
Hp QT AQ € RO-2)*(—2), KF QT AĜ 使 用 归纳 假设 , 即 可 证 明定 理 结论 成 立 . 口 


若 A 的 特征 值 都 是 实数 , 则 可 得 
推论 1.37 I A CR” 的 特征 值 都 是 实 的 , 则 存在 正 交 矩阵 Qe R fhe fee R eR” 
使 得 


Q™AQ = R, 


其 中 及 的 对 角 线 元 素 即 为 A 的 特征 值 . 


1.2.13 Kronecker 积 
定义 1.18 设 4ECmx Be Crx, n] A & Bél Kronecker 积 定义 为 
auB aB …  ainB 


ay Bo aB > AmB 


A8 B= E GURAN, 


amıB amB `> amnB 


Loa Kronecker 积 也 称 为 直 积 , 或 张 量 积 . | 


(E 任意 两 个 矩阵 都 存在 Kronecker $, H A@ BB 和 Be A MIPE, (EH ASB BOA. | 


定理 1.38 矩阵 的 Kronecker 积 有 以 下 性 质 : 
(1) (@A)@ B= A®(aB)=a(A@B), VaeC; 
(2) (AQ B)? = AT 8 BT, (A8 B)* = A* & B*; 
(3) (A9B)9C=A4A8(B80); 
(4) (A+ B)@C=AQC+BOC; 
(5) A@(B+C)=ASB+ABWC; 
(6) 混合 积 : (A @ B)(C @ D) = (AC) @ (BD) 
(7) (A1® Az @---@ Ax)(B, Q B2 @--- @ Bk) = (Ai Bi) ® (Ag Bo) @--- Q (Ax Br); 
(8) (A1 @ By)(A2 ® B2):… (Ak @ Be) = (A142: - Ak) D (B1B2--- Be); 
(9) rank(A ® B) = rank(A) rank(B) ; 


定理 1.40 3 A e C™™, B e Tr”, 则 
(1) tr(A 8 B) = tr(A)tr(B); 
(2) det(A ® B) = det(A)” det(B)™ ; 
(3) A @ In + Im 8 B WAFA Ai + wy, BP Ai Fe uj DAJA A Fo BAS ELE; 
(4) # Af BAREAH, N (ASB)! =A! 8B; 


推论 1.41 7% A= QAQ, B= QohoQz', 则 


A® B = (Q1 8 Q2)(Ai 8 42) (Q1 8 Qa)". 


定理 1.42 HACC”, B eC”, MHA m+n MERE PEA 


PT(A@B)P=B@A. 


定理 1.43 KHE X = [21,22,..., Un] E RX”, a vec(X) A X RIERA mn 维 列 向 量 , 即 


vec(X) = [r], zd,... 


vec(AX) = (I @ A)vec(X), vec(XB) = (BT & I)vec(X), 


(A @ B)vec(X) = vec(BX A‘). 


定理 1.44 矩阵 方程 
AX+XB=D 
等 价 于 代数 方程 
(I & A+ BT @ I)vec(X) = vec(D). 
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1.3 数值 计算 中 的 误差 

数值 方法 的 特点 之 一 就 是 所 求 得 的 解 是 近似 解 ,总 是 存在 一 定 的 误差 . 因此 , 误差 分 析 是 数值 
分 析 中 一 个 很 重要 的 课题 . 
误差 是 人 们 用 来 描述 数值 计算 中 近似 解 的 精确 程度 , 是 科学 计算 中 的 一 个 十 分 重要 的 概念 . 
误差 大 致 可 分 为 以 下 几 种 类 型 ; 
模型 误差 : 数学 模型 是 对 实际 问题 的 数学 描述 , 它 往往 是 抓 住 问题 的 主要 因素 而 略 去 次 要 因 
素 , 因此 , 它 是 实际 问题 的 一 个 近似 . 
观测 误差 : 在 数学 模型 中 通常 包含 一 些 参量 (数据 ), 这 些 参量 的 值 一 般 都 是 通过 测量 或 实验 
的 方法 所 得 到 的 , 因此 也 存在 误差 . 
截断 误差 : 也 称 方法 误差 , 在 对 数学 模型 进行 数值 求解 时 ,需要 做 一 些 近 似 , 如 对 导数 离散 时 
可 用 差 商 代 蔡 . 
舍 入 误差 : 由 于 机 器 字 长 有 限 , 由 于 机 器 字 长 有 限 , 计算 机 对 浮 点 数 的 表示 和 算术 运算 都 存在 
一 定 的 误差 . 
在 数值 分 析 中 , 我 们 总 是 假定 数学 模型 和 所 给 的 数据 都 是 准确 的 , 因而 不 考虑 模型 误差 和 观 
测 误差 , 主要 研究 截断 误差 和 舍 信 误差 对 计算 结果 的 影响 . 


1 

例 1.6 近似 计算 | on? de 的 值 
0 

解 . 这 里 我 们 采用 Taylor 展开 , 即 


其 中 Sy 为 前 四 项 的 部 分 和 , Ry 为 剩余 部 分 . 如 果 我 们 以 54 作为 定 积分 的 近似 值 , 则 Ra 就 是 由 此 
产生 的 误差 , 这 种 误差 就 称 为 截断 误差 . 
在 计算 Sy 的 值 ,假定 我 们 保留 小 数 点 后 4 位 有 效 数字 , 则 


1 1 1 
S4= 1-3 + ïg- ga © 1 0.8333 + 0.1000 一 0.0238 = 0.7429 
这 就 是 我 们 最 后 得 到 的 近似 值 . 这 里 ,在 计算 Sy 时 所 产生 的 误差 就 是 舍 人 误差 . 口 


13.1 误差 与 有 效 数字 
定义 1.19 设 x* 是 精确 值 , x 是 其 近似 值 , 则 绝对 误差 e 和 相对 误差 er 分别 定义 为 


t= 7" 
C= =7 


若 存 在 e > OWA lel = |a —a*| < e, 则 称 e 为 绝对 误差 限 , 简称 误差 限 . 类 似 地 , 若 存 在 sr > 0 
满足 |er| < sr 则 称 sr 为 相对 误差 限 . 


几 点 说 明 : 
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绝对 误差 可 能 为 正 , 也 可 能 为 负 ; 

绝对 误差 越 小 越 具 有 参考 价 , 但 绝对 误差 却 不 能 很 好 地 表示 近似 值 的 精确 程度 ; 
近似 值 的 精确 程度 取决 于 相对 误差 的 大 小 ; 

实际 计算 中 我 们 所 能 估计 的 通常 是 误差 限 或 相对 误差 限 ; 

由 于 真 值 难以 求 出 ,通常 也 使 用 下 面 的 定义 作为 相对 误差 限 


T-T 
j= 
z 
。 工程 中 通常 用 下 面 的 表达 式 来 刻画 近似 值 的 精度 : 
v=axute, 


表示 精确 值 在 区 间 [x — e, x + e] 中 . 


定义 1.20 车 近似 值 r 的 误差 限 是 某 一 位 的 半 个 单位 , 且 该 位 到 x 的 第 一 位 非 替 数字 共有 nn 位 ， 


则 称 z 有 n 位 有效 数字 . 


关于 有 效 数 字 的 判断 , 我 们 可 以 使 用 下 面 的 方法 . 
性 质 1.7 设 z 是 ww* 的 近似 值 , Se 可 表示 为 


z = +0.aja2...ay... X 10”, 
其 中 a; 是 0 到 9 中 的 数字 , 20,404 


|z — a*| < 0.5 x 107”, 


N z BPA nt ARR. 


换 而 言 之 , 若 |x 一 x*| < 0.5 x 10%, M r EDE m- k MARRIT. 
例 1.7 UW zı = 3.1415 A z2 = 3.1416 是 x = 3.14159265... 的 近似 值 , 则 z1 有 4 位 有 效 数 字 , 而 
r 有 5 位 有 效 数字 . 
例 1.8 根据 四 舍 五 和 原则, 写 出 下 列 各 数 的 具有 5 位 有 效 数字 的 近似 值 : 


187.9325, 0.03785551， 8.000033. 


解 . 这 三 个 数 的 具有 5 位 有 效 数字 的 近似 值 分 别 为 : 187.93, 0.037856, 8.0000. 口 


有 两 点 需要 注意 的 是 : 
。 按 四 舍 五 人 原则 得 到 的 数字 是 有 效 数字 ; 
。 一 个 数 未 尾 的 0 不 可 以 随意 添加 或 省 略 . 
定理 1.45 (有 效 数字 与 相对 误差 限 ) Keka 的 近似 值 , 若 可 表示 为 


m 
x = +0.a,a2...dn... X 10°", 


. 1-25 
其 中 a; 是 0 到 9 中 的 数字 , 且 al 关 0. 若 x 具有 nn 位 有 效 数字 , 则 其 相对 误差 限 满 足 


1 
er < — X10-7+1. 
2al1 


反之 , 若 z 的 相对 误差 限 满足 i 


-~ eg, 
2(a1 + 1) 


Er S 


则 z BPA nt ARR. 


证 明 . 由 z 的 表达 式 可 知 
al x10m < |z| < (a1 +1) x 10", 


若 z 具 有 即位 有 效 数 字 , 则 
|z — z*| _ 0.5 x 10" 1 


a |x| 人 a,x l0™! ”2ai a ale 
RZ, A er S get X10 Ml 
|æ — z*| = |z| -€r < 0.5 x 1077”. 
故 z BOA n MARZE. o 


从 这 个 定理 可 以 看 出 , 有 效 数字 与 相对 误差 是 紧密 相关 的 : 有 效 数 字 越 多 , 相对 误差 就 越 小 ; 
反之 , 相对 误差 越 小 , 有 效 数 字 就 越 多 . 


基本 算术 运算 的 误差 估计 
误差 估计 主要 是 指 如 何 估计 误差 限 或 相对 误差 限 . 我 们 用 s(z) 表示 z 的 误差 限 , 则 有 


elx $ T2) < E(Z1) + e(x2), 


<s(Z172) < |xgle(x1) + |a1|e(x2), 


(v1 
F (2) Z Jar le(a1) + [eile(z2) 


T2 |x|? 


函数 求 值 的 误差 估计 
一 般 地 , 设 f(x) 是 可 微 函数 ,zx 为 z* 的 近似 值 , 则 由 Taylor 公式 可 知 ,存在 和 使 得 


所 以 有 
e(f(x)) < |f'(zx’)le(z) + = (72). 
当 |1”(8j| 与 |f7(x*)| 的 比值 不 是 很 大 时 ,我 们 可 以 舍 去 二 次 项 , 从 而 得 到 
e(f(x)) $ If (x")le(z). 
由 于 z* 通常 是 不 知道 的 , 所 以 我 们 也 用 了 r(x) 来 近似 f(a), 即 
e(f(x)) S |F (zx)le(z). 


IE” O » 
2 
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关于 相对 误差 限 , 我 们 有 如 下 的 估计 : 


_|f@)= Fe") Fee) re] ezr] oy, 
eE) = EEE] x EEEE] EEEO. E = certo), 
其 中 ,= 一 一 称 为 f(z) 的 条 件数 


对 于 多 元 可 微 函 数 f(z1,z2,.….2n), 设 z= 二 (zza ma) 是 z = (wt,ah,...,0%) 的 近似 
值 , 则 有 


* 
Ox}, 


13.2 ”误差 分 析 
e 数值 计算 中 的 误差 分 析 很 重要 , 但 也 很 复杂 ; 
。 在 计算 过 程 中 ,误差 会 传播 、 积 累 、 对 消 ; 
。 实 际 计 算 中 的 运算 次 数 通 常 都 在 千 万 次 以 上 , 因此 对 每 一 步 运 算 都 做 误差 分 析 比 较 不 切实 
际 . 
误差 分 析 一 般 可 分 为 定量 分 析 和 定性 分 析 . 
定量 分 析 
。 主要 方法 有 : 向 前 误差 分 析 法 , 向 后 误差 分 析 法 , 区 间 误 差分 析 法 , 概率 分 析 法 等 . 
© 向 前 误差 分 析 : 用 输入 数据 的 误差 和 数值 方法 本 身 的 误差 来 分 析 计 算 结 果 的 误差 . 
。 向 后 误差 分 析 : 用 某 个 算法 计算 f(x), 得 到 的 近似 解 为 f, 假定 f 是 f(x) 对 应 于 某 个 数据 T 
的 精确 解 , 即 f = f(z), 分 析 一 x 的 大 小 就 是 向 后 误差 分 析 . 


向 后 误差 分 析 法 (backward error analysis) 由 著名 数值 分 析 专 
Z J. H. Wilkinson 于 1960 年 提出 , 这 是 误差 理论 中 最 基本 的 误差 
分 析 方 法 之 一 . 

向 后 误差 分 析 是 一 种 先 验 误差 估计 方法 , 不 仅 可 以 用 来 讨论 
算法 的 稳定 性 ,还 可 以 用 于 讨论 算法 的 收敛 性 . 

后 验 误差 估计 则 是 利用 得 到 的 数值 结果 来 估计 近似 解 的 误 
差 , 如 在 解 方程 组 时 , 可 以 利用 残 量 来 估计 解 的 误差 . 
定性 分 析 1.1 Wilkinson (1919-1986) 


。 目前 在 数值 计算 中 更 关注 的 是 误差 的 定性 分 析 ; 

。 定性 分 析 包 括 研究 数学 问题 的 适 定性 , 数学 问题 与 原 问 题 的 相 容 性 , 数值 算法 的 稳定 性 , 避免 
扩大 误差 的 准则 等 ; 

。 定性 分 析 的 核心 是 原始 数据 的 误差 和 计算 过 程 中 产生 的 误差 对 最 终 计算 结果 的 影响 . 


E 算法 有 “ 优 劣 ”之 分 , 问题 有 “好 坏 ” 之 别 , 即使 不 能 定量 地 估计 出 最 终 误 差 , 但 是 若 能 确保 
计算 过 程 中 误差 不 会 被 任意 放大 , 那 就 能 放心 地 实施 计算 , 这 就 是 研究 定性 分 析 的 初衷 . 


13.3 ”数值 稳定 性 
数值 计算 中 的 稳定 性 包括 数学 问题 的 稳定 性 和 数值 算法 的 稳定 性 . 
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数学 问题 的 稳定 性 
如 果 数学 问题 满足 
(GD 对 任意 满足 一 定 条 件 的 输入 数据 ,存在 一 个 解 
(2) 对 任意 满足 一 定 条 件 的 输入 数据 , 解 是 唯一 的 ， 
(3) 问题 的 解 关于 输入 数据 是 连续 的 
则 称 该 数学 问题 是 适 定 的 (well-posed), 否则 就 称 为 不 适 定 的 (ill-posed). 
E 如 果 输 入 数据 的 微小 扰动 会 引起 输出 数据 ( 即 计算 结果 ) 的 很 大 变化 (误差 ), 则 称 该 数值 问 


=] 
例 1.9 解 线性 方程 组 i wa 
axz+y=0 


解 . 易 知 当 a = 1 时 ,方程 组 无 解 . 当 a AY, 解 为 


D 1 =<, 
= page jea 

“aw 1 时 , 解 的 误差 可 能 会 很 大 . 比如 当 a = 0.999 时 ,xz œ 500.25. 假定 输入 数据 a 带 有 0.0001 
的 误差 , 即 输入 数据 为 a* = 0.9991, 则 此 时 有 zx* ~ 555.81, 解 的 误差 约 为 55.56, 是 输入 数据 误差 
的 五 十 多 万 倍 , 因此 该 问题 的 病态 的 . 口 


病态 问题 与 条 件数 

设 f(z) 可 导 , 则 其 条 件数 定义 为 
xf'(2) 

f(a) 

一 般 情 况 下 , 条 件数 大 于 10 时 , 就 认为 问题 是 病态 的 ; 
条 件数 越 大 问题 病态 就 越 严重 ; 
病态 是 问题 本 身 固有 的 性 质 , 与 数值 算法 无 关 ; 
对 于 病态 问题 , 选择 数值 算法 时 需要 谨慎 . 


Cp = 


算法 的 稳定 性 
在 计算 过 程 中 , 如 果 误差 不 增长 , 则 称 该 算法 是 稳定 的 , 否则 为 不 稳定 的 . 
OE 在 数值 计算 中 , 不 要 采用 不 稳定 的 算法 ! | 


例 1.10 近似 计算 


1 z” 
Sa —— dz, n=1,2,...,8 
0 xr+5 
解 . 通过 观察 可 知 
x” + 6a" 1 
S 5Sn-1 = = n-i 一 
Home f r+5 j f j n’ 
因此 


Sn 一 一 一 59n 1. (1.7) 
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易 知 So = m6 — Ind ~ 0.182 (保留 三 位 有 效 数字 ), 利用 上 面 的 递 推 公式 可 得 (保留 三 位 有 效 数字 ) 


Sı = 0.0900, S2 = 0.0500， 53 = 0.0833, S4 = —0.166, 
Ss = 1.03, Se= —4.98, S7=25.0, Ss = —125. 


另 一 方面 ,我 们 有 
1 x” 1 
Gin +1) Jp asf 2 ars f) n oe 


因此 , 上面 计算 的 ,64,..., Sg 显然 是 不 对 的 . 原因 是 什么 呢 ? 误差 ! 
设 S* 是 5 的 近似 值 , 则 


1 1 
e(S,) = Sn — Sn = (+ 一 557.1] 一 (+ 一 5s， ) = —5(57_, — Sn_1) 一 一 5e(9* 1). 


即 误差 是 以 5 倍速 度 增长 , 这 说 明 计 算 过 程 是 不 稳定 的 , 因此 我 们 不 能 使 用 该 算法 . 
事实 上 , 递 推 公式 (1.7) 可 以 改写 为 


1 
Sn-1 = m 5 =f. 


因此 ,我 们 可 以 先 估计 Ss 的 值 , 然后 通过 反 向 递 推 , 得 到 其 它 值 . 
我 们 可 以 根据 (1.8) 对 Ss 做 简单 的 估计 , 即 


~ i x” 


Sz = 0.0209, S56 = 0.0244, Ss = 0.0285, S4 = 0.0343, 
S3 = 0.0431, S2 = 0.0580, Sı = 0.0884, So = 0.182. 


对 比 精确 值 Sh 可 知 , 此 时 计算 出 来 的 Sn 精度 要 好 很 多 . 
通过 误差 分 析 可 知 , 误差 是 以 的 速度 减 小 , 因此 计算 过 程 是 稳定 的 . 口 


CE 在 数值 计算 中 , 误差 不 可 避免 ,算法 的 稳定 性 是 一 个 非常 重要 的 性 质 . | 


算法 的 稳定 性 : 通俗 地 讲 , 对 于 某 个 给 定 的 算法 , 如 果 输 入 数据 的 误差 在 运算 过 程 不 断 增 长 而 
得 不 到 控制 , 那么 我 们 就 说 该 算法 是 数值 不 稳定 的 , 否则 就 是 数值 稳定 的 . 

假设 输入 数据 的 误差 为 eo, A n 次 运算 后 的 计算 结果 的 误差 为 en. WR en ~ cineo, 其 中 cl 
是 与 nn 无 关 的 常数 , 则 称 误差 是 线性 增长 的 . 如 果 en ~ czk"eo, 其 中 c2, k BR n 无关 的 常数 且 
k > 1, 则 称 误差 是 指数 增长 的 . 如 果 算 法 的 误差 增长 是 线性 的 , 则 该 算法 是 数值 稳定 的 , 如 果 算 法 
的 误差 是 指数 增长 的 , 则 该 算法 是 数值 不 稳定 的 . 
显然 误差 的 线性 增长 是 不 可 避免 的 , 而 指数 增长 是 必须 避免 的 . 在 数值 计算 中 ,算法 的 稳定 性 
是 一 个 非常 重要 的 性 质 . 


定义 1.21 (算法 的 向 后 稳定 性 ) 用 某 个 算法 来 计算 f(z), PAOLA f(x), SHEA z, 
都 存在 一 个 “小 ”的 ôr, 使 得 f(z + ôr) = f(x), 则 称 该 算法 是 向 后 稳定 的 , 其 中 5z 称 为 向 后 误 
差 . 这 种 误差 分 析 方法 就 是 向 后 误差 分 析 . 


奋 一 个 算法 是 向 后 稳定 的 , 则 有 


|f(x) — f(z)| = |f (æ + dx) — f(2)|  |f'(@)| - őz]. 


由 于 6z 很 小 ,所 以 当 |F) 不 是 很 大 时 , 误差 总 是 很 小 . 因此 向 后 稳定 是 一 个 好 的 算法 的 基本 性 
质 . 


HS 向 后 误差 分 析 将 伟人 误差 归 入 到 截断 误差 中 , 使 得 误差 分 析 相对 简单 化 | 
数值 计算 注意 事项 


在 用 计算 机 进行 数值 计算 时 , 舍 入 误差 不 可 避免 ,但 我 们 要 尽 可 能 地 减 小 舍 人 误差 对 计算 结 
果 的 影响 . 在 计算 过 程 中 , 我 们 应 注意 以 下 几 点 . 
(1) 避免 相近 的 数 相 减 

如 果 两 个 相近 的 数 相 减 , 则 会 损失 有 效 数字 , 如 0.12346 一 0.12345 = 0.00001, 操作 数 有 5 位 
有 效 数 字 , 但 结果 却 只 有 1 为 有 效 数 字 . 下 面 给 出 几 个 避免 相近 的 数 相 减 的 方法 : 


E 
VO 
ln(x + €) — ln(z)= ln (1 十 =) 


1 — cos(x) = 2 sin? 2 Iz| < 和 1 


x 1 1 2 
e—-l=2 l+ oot oe +e |]，|z| 志 1 


(2) 避免 数量 级 相差 很 大 的 数 相 除 
可 能 会 产生 游 出 , 即 超出 计算 机 所 能 表示 的 数 的 范围 
(3) 避免 大 数 吃 小 数 
如 直接 计算 (109 — 10-9 + 109)/10-9 时 , 结果 可 能 为 0. 
另外 , 在 对 一 组 数 求 和 时 , 应 按 绝对 值 从 小 到 大 求 和 . 
(4) 简化 计算 
尽量 减少 运算 次 数 , 避免 误差 积累 . 
(5) 选用 稳定 的 算法 
尽 可 能 避免 由 于 算法 本 身 导 致 的 误差 增 大 . 


1.4 IEEE 浮 点 运算 标准 


数 通常 以 浮 点 格式 表示 和 参与 运算 的 (整数 除外 ), 浮 点 格式 是 一 种 数据 结构 , 用 于 指定 包含 
浮 点 数 的 字段 、 这 些 字段 的 布局 及 其 算术 解释 . 浮 点 存储 格式 指定 如 何 将 浮 点 格式 存储 在 内 存 
中 自 计算 机 发 明 以 来 , 兽 出 现 许多 中 不 同 的 浮 点 数 表示 方式 , 但 目前 最 通用 的 是 IEEB 二 进 制 泽 
点 数 算术 标准 (IEEE Standard for Binary Floating-Point Arithmetic, 简称 IEEE 754 标准 ). 

IEEE 754 标准 的 主要 起 草 者 是 加 州 大 学 伯克利 分 校 数学 系 的 William Kahan 教授 , 他 帮助 
Intel 公司 设计 了 8087 浮 点 处 理 器 , 并 以 此 为 基础 形成 了 IEEE 754 标准 , Kahan 教授 也 因此 获得 了 
1987 年 的 图 灵 奖 . 


1.4.1 IEEE 中 的 浮 点 数 
通常 一 个 浮 点 数 由 符号 、 尾 数 、 基 和 指数 组 成 , 如 : 
一 0.3141592610 x 102， 0.10101, x 2°. 


1 FB BER) BC A AANE, 小数 点 后 面 的 数 称 为 尾数 . 若 尾 数 的 首位 数字 不 为 0 时 , 我 们 称 
其 为 正规 数 (或 规范 化 数 ), 否则 称 为 次 正规 数 (或 非 规范 化 数 ), 如 0.31410 x 10? 是 正规 数 , 而 
0.0031410 x 104 是 次 正规 数 . 正规 化 表示 方法 可 以 使 得 每 个 浮 点 数 的 表示 方式 唯一 , 而 且 可 以 空 
出 一 个 位 置 , 使 得 表示 精度 更 高 . 
© IEEE 754 标准 中 定义 了 表示 浮 点 数 的 四 种 格式 : 
- 两 种 基本 的 浮 点 数 : 单 精度 (32 位 字 长 ) 和 双 精 度 (64 位 字 长 ). 
其 中 单 精度 格式 具有 24 位 有 效 数字 (二 进 制 ), 而 双 精 度 格 式 具 有 53 位 有 效 数字 (二 进 
制 ), 相 对 于 十 进 制 来 说 ,分 别 是 7 位 (224 =~ 107) All 16 位 (253 ~ 1016) 有 效 数字 . 
- 两 种 扩展 的 浮 点 数 : 单 精度 扩展 和 双 精 度 扩展 . 
IEEE 754 标准 中 并 未 规定 扩展 格式 的 精度 和 大 小 , 但 它 指定 了 最 小 精度 和 字 长 : 单 精 度 
扩展 需 43 位 字 长 以 上 , 双 精 确 度 扩展 需 79 位 字 长 以 上 (64 位 有 效 数字 ). 单 精度 扩展 很 
少 使 用 , 而 对 于 双 精 确 度 扩展 , 不 同 的 机 器 架构 中 有 着 不 同 的 规定 ,有 的 为 80 位 字 长 (如 
X86), 有 的 为 128 位 字 长 (如 SPARC). 
。 一 般 来 说 , 描述 一 个 浮 点 数 的 三 个 基本 要 素 为 : 
- 基 : 计算 机 一 般 都 以 2 为 基 ; 
- 尾数 的 位 数 : 确定 有 效 数字 的 位 数 , 即 精度 ; 
- 指数 的 位 数 : 确定 所 能 表示 的 数 的 范围 . 
。 JE IEEE 754 标准 中 , 浮 点 数 是 用 二 进 制 表示 的 , 由 三 部 分 组 成 : 符号 (s), 指数 (e) 和 尾数 (了 )， 
见 下 图 . 


sign exponent fraction 
binary point 


sign exponent fraction 


binary point 


1.2 IEEE 754 中 单 精 度 格式 与 双 精 度 格式 的 位 模式 
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。 单 精度 格式 : 用 8 位 字 长 的 二 进 制 数 来 表示 指数 ,因此 e 的 取 值 范围 为 [0,255]. 当 0 < e< 255 
时 , 按 单 精度 格式 存储 的 数 , 其 对 应 的 值 是 使 用 以 下 方法 得 到 的 : 


将 二 进 制 基数 点 (小 数 点 ) 插入 到 尾数 f 最 高 有 效 位 的 左 侧 , 并 将 一 个 隐 含 位 插入 到 二 
进 制 基数 点 的 左 侧 , 因而 得 到 的 是 一 个 二 进 制 带 分 数 (整数 加 小 数 ). 


如 此 构成 的 带 分 数 为 单 精度 格式 有 效 数字 . 隐 含 位 的 值 并 没有 显 式 指定 (不 存储 ), 而 是 通过 


指数 e 的 值 来 隐 式 指定 : 


IEEE 754 中 规定 , 当 0 < e < 255 时 , 表示 的 单 精 度数 为 二 进 制 正规 数 , 此 时 隐 仿 位 为 1. 
当 e = 0 时 ,表示 的 单 精度 数 为 二 进 制 次 正规 数 , 隐 含 位 为 0. 


E 这 里 的 正规 数 与 前 面 的 定义 有 点 区 别 , 因为 这 里 引入 了 隐 含 位 . 为 了 以 示 区 别 ,我们 加 


上 二 进 制 . 


单 精 度 格式 位 模式 中 的 尾数 只 有 23 位 , 但 由 于 使 用 了 隐 含 位 , 所 以 能 提供 24 位 有 效 数字 (二 
进 制 ). 在 IEEE 中 , 单 精度 格式 与 其 表示 的 值 的 对 应 关系 是 


单 精 度 格式 位 模式 值 

0<e<255 (一 1)s x Lf x 267127 (二 进 制 正规 数 ) 
e=0,f 40 (一 1)s x O.f x 27176 (二 进 制 次 正规 数 ) 
e=0,f=0 (一 1)* x 0.0 (有 符号 的 零 ) 
e=255,f=0,s=0 +inf ( 正 无 穷 大 ) 

e = 255,f=0,s=1 -inf ( 负 无 穷 大 ) 


e = 255, f £0 


NaN ( 非 数 、 非 确定 值 ) 


其 中 127 是 单 精度 格式 的 指数 偏 移 值 (exponent bias), 在 IEEE 标准 中 , 这 个 值 定义 为 
DEEK- _ 1， 所 以 对 于 单 精度 格式 , 指数 偏 移 值 就 是 28-2 - 1 = 127, 而 对 于 双 精度 


格式 , 这 个 值 为 211-1 — 1 = 1023. 


© 双 精 度 格式 : 与 单 精度 格式 类 似 , 对 应 关系 是 


双 精 度 格式 位 模式 值 

0 < e < 2047 (一 1)s x 1.f x 2e-1023 (二 进 制 正规 数 ) 
e=0,f 40 (一 1)s x O.f x 271072 (二 进 制 次 正规 数 ) 
0,70 (-1)° x 0.0 (有 符号 的 零 ) 

e = 2047, f =0,s=0 +inf ( 正 无 穷 大 ) 

e = 2047, f =0,s=1 -inf ( 负 无 穷 大 ) 


e = 2047, f £0 


NaN ( 非 数 、 非 确定 值 ) 


例 1.11 单 精度 格式 所 能 表示 的 十 进 制 数 范围 . 
。 最 大 二 进 制 正规 数 为 7F7FFFFF16 = 3.40282347 x 1038 
。 最 小 ( 正 的 ) 二 进 制 正 规 数 为 0080000016 = 1.17549435 x 10738 
。 最 大 二 进 制 次 正规 数 为 007FFFFF16 = 1.17549421 x 10738 
。 最 小 ( 正 的 ) 二 进 制 次 正规 数 为 0000000116 = 1.40129846 x 1074 


例 1.12 双 精 度 格 式 所 能 表示 的 十 进 制 数 范围 ， 


。 最 大 二 进 制 正规 数 为 7FEEFFFFF FFFFFFFF16 = 1.7976931348623157 x 10308 

。 最 小 ( 正 的 ) 二 进 制 正 规 数 为 00100000 0000000016 = 2.2250738585072014 x 107308 
。 最 大 二 进 制 次 正规 数 为 000FFFFF FFFFFFFF16 = 2.2250738585072009 x 107308 

。 最 小 GEM) 二 进 制 次 正规 数 为 00000000 0000000116 = 4.9406564584124654 x 10-324 


e 3FF00000 0000000016 = 1 


dec2bin, 


在 Matlab 中 , hex2num 可 以 将 一 个 由 16 个 16 进 制 数 组 成 的 字符 串 转化 为 其 所 对 应 的 
浮 点 数 (根据 IEEE 标准 ), 类 似 的 命令 有 hex2dec, bin2dec, base2dec, num2hex, 


例 1.13 把 二 进 制 数 (1001.0101)。 


转换 成 十 进 制 数 . 


(1001.0101)2 =1x23+0x2+0x2t:+1x2 +0x2 t+1x2 ?+0x2 3+1x27? 


= 9.312510 


例 1.14 把 十 进 制 数 13.12510 转换 成 二 进 制 数 . 


整数 部 分 : 1310 = 1101。 


小 数 部 分 : 


e 0.125 x 2 = 0.25, 整数 位 是 0 一 .0; 


e 0.25 x 2 = 0.5, 整数 位 是 0 一 


.00; 


。0.5 x 2 = 1, 整数 位 是 1 .001; 


所 以 13.12510 = 1101.001。 


一 个 十 进 制 数 能 否 用 二 进 制 浮 点 数 精确 表示 , 关键 在 于 小 数 部 分 . 


例 1.15 十 进 制 数 0.11o 能 否 用 二 进 制 数 精确 表示 ? 


。0.1 x 2 = 0.2, 整数 位 是 0 >. 
© 0.2 x 2 = 0.4, 整数 位 是 0 >. 
。0.4 x 2 = 0.8, 整数 位 是 0 一 . 
e 0.8 x 2 = 1.6, 整数 位 是 1 一 . 
e 0.6 x 2 = 1.2, 整数 位 是 1 一 . 
。0.2 x 2 = 0.4, 整数 位 是 0 一. 
。0.4 x 2 = 0.8, 整数 位 是 0 >. 
。0.8 x 2 = 1.6, 整数 位 是 1 一. 
o 0.6 x 2 = 1.2, 整数 位 是 1 一 . 


0; 


000; 

0001; 
00011; 
000110; 
0001100; 
00011001; 
000110011; 


得 到 一 个 无 限 循 环 的 二 进 制 小 数 , 显然 用 有 限 位 字 长 是 无 法 表示 的 , 因此 0.110 无 法 用 IEEE 754 浮 


点 数 精确 表示 . 
同 理 可 知 0.2, 0.4, 0.6, 0.8, 0.3 


,0.7, 0.9 是 无 法 用 二 进 制 数 或 IEEE 754 浮 点 数 精确 表示 的 , 故 


0.1 至 0.9 的 9 个 小 数 中 , 只 有 0.5 可 以 用 IEEE 754 浮 点 数 精确 表示 . 


例 1.16 能 用 二 进 制 数 精确 表示 的 十 进 制 数 . 易 知 


0.12 = 210 = 0.5 

0.012 = 25, = 0.25 

0.0012 = 25° = 0.125 

0.00012 = 275° = 0.0625 
0.000012 = 270 = 0.03125 
0.0000012 = 27° = 0.015625 
0.00000015 = 27,7 = 0.0078125 
0.000000012 = 270 = 0.00390625 


由 此 可 知 , 一 个 十 进 制 小 数 要 能 用 浮 点 数 精确 表示 , 最 后 一 位 必须 是 5. 当然 这 是 必要 条 件 , 并 非 充 
分 条 件 . 如 0.35 就 无 法 精确 表示 . 


例 1.17 N 位 二 进 制 小 数 能 精确 表示 的 非 零 十 进 制 小 数 总 共有 多 少 个 ? 


o 1 位 二 进 制 小 数 能 精确 表示 的 有 20 = 1 个 (0.12 = 0.510); 
。2 位 二 进 制 小 数 能 精确 表示 的 有 2! = 2 个 (0.012 = 0.2510, 0.112 = 0.7510); 
。 3 位 二 进 制 小 数 能 精确 表示 的 有 22 = 4 个 


e N 位 二 进 制 小 数 能 精确 表示 的 有 20 4S 
所 以 N 位 二 进 制 小 数 能 精确 表示 的 十 进 制 小 数 总 共有 22 一 1 个 . 


14.2 IEEE 中 的 浮 点 数 运算 


。 IEEE 754 标准 也 定义 了 浮 点 数 的 运算 规则 : 

- 加 、 减 、 乘 、 除 、 平 方 根 、 余 数 、 将 浮 点 格式 的 数 合 入 为 整数 值 、 在 不 同 浮 点 格式 之 间 
转换 、 在 浮 点 和 整数 格式 之 间 转 换 以 及 比较 . IEEE 对 以 上 浮 点 运算 的 准确 度 作 了 规定 : 
求 余 和 比较 运算 必须 精确 无 误 . 其 他 运算 必须 向 其 目标 提供 精确 的 结果 , 除非 没有 此 类 
结果 , 或 者 该 结果 不 满足 目标 格式 , 此 时 运算 必须 按照 下 面 介 绍 的 舍 入 模式 对 精确 结 
进行 最 低 限 度 的 修改 , 并 将 经 过 修改 的 结果 提供 给 运算 的 目标 . 

- 在 十 进 制 字 符 串 和 两 种 基本 浮 点 格式 之 一 的 二 进 制 序 点 数 之 间 进 行 转换 的 准确 度 、 单 

一 性 和 一 致 性 要 求 . 
对 于 在 指定 范围 内 的 操作 数 , 这 些 转换 必须 生成 精确 的 结果 (如 果 可 能 的 话 ), 或 者 按照 
规定 的 舍 入 模式 , 对 此 类 精确 结 采 进行 最 低 限 度 的 修改 . 对 于 不 在 指定 范围 内 的 操作 数 ， 
这 些 转换 生成 的 结果 与 精确 结果 之 间 的 差 值 不 得 超过 取决 于 舍 人 模式 的 指定 误差 . 

- 五 种 类 型 的 IEEE 浮 点 异常 , 以 及 用 于 向 用 户 指 示 发 生 这 些 类 型 异常 的 条 件 . 

五 种 类 型 的 浮 点 异常 是 : 无 效 运算 、 被 零 除 、 上 浇 、 下 溢 和 不 精确 . 

- IEEE 中 有 四 种 舍 入 模式 : 向 最 接近 的 可 表示 的 值 (就 近 舍 入 ); 当 有 两 个 最 接近 的 可 表示 
的 值 时 首选 “偶数 ” 值 (二 进 制 意义 下 ); 向 负 无 穷 大 方向 (向 下 ); 向 正 无 穷 大 方向 (向 上 ) 
ARE 0 方向 (截断 ). 
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E 不 同 编译 器 对 伟人 可 能 有 不 同 的 处 理 方式 . | 
。 Pii 
当 运 算 结 果 非 常 小 时 , HES AE PB tk. Ree i EL. 
目标 的 精度 下 溢 阔 值 
单 精 度 最 小 正规 数 1.17549435 x 10738 
最 大 次 正规 数 ”1.17549421 x 10738 
双 精 度 最 小 正规 数 2.2250738585072014 x 107308 
最 大 次 正规 数 ”2.2250738585072009 x 107308 


IEEE 算法 处 理 下 洲 的 方式 是 渐进 下 溢 : 当 生 成 的 正确 结果 的 数量 级 低 于 最 小 正 正 规 数 时 , 就 
会 生成 次 正规 数 , 而 不 是 返回 零 . 

机 器 精度 : 将 1.0 与 大 于 1.0 的 最 小 浮 点 数 之 间 的 距离 称 为 machine epsilon, 它 一 半 称 为 unit 
roundoff, 记 为 em, 我 们 一 般 也 称 之 为 机 器 精度 , 它 是 计算 机 表示 一 个 浮 点 数 时 的 相对 误差 界 ， 
即 [21, page 38,39] 


化 
1+8 
这 里 fl(z) 表示 x 在 计算 机 中 实际 存储 的 IEEE 浮 点 数 . 

TE IEEE 标准 下 , 单 精度 和 双 精 度 浮 点 运算 的 最 大 相对 误差 Em 分 别 为 


fl(zx) = 二 zx(1 十 6) 或 fl(x)= 


|6| < Em- 


精度 最 大 相对 误差 
单 精 度 2724 ~ 5.960464 x 1078 
双 精 度 2753 ~ 1.110223 x 10716 


例 1.18 假定 要 使 用 只 有 三 个 精度 位 的 二 进 制 算法 . 那么 , 最 大 相对 误差 为 2 :. 在 任意 两 个 
2 的 需 之 间 , 只 有 23 — 1 = 7 个 可 表示 数字 , 如 下 图 所 示 . 


M 


0 2-1 20 21 22 23 24 
数 轴 显 示 了 数字 之 间 的 差距 是 随 着 指数 增加 而 加 倍增 加 的 . 
TE IEEE 单 精 度 格式 中 , 两 个 最 小 正 次 正规 数 之 间 的 差 大 约 是 10 气 , 而 两 个 最 大 有 限 数 之 间 
的 数量 级 差 大 约 是 10311 
。 当 运 算 结 果 处 于 两 个 浮 点 数 的 正中 间 时 , 选取 最 低 有 效 位 为 0 的 浮 点 数 作为 近似 值 (“偶数 ”). 
。 精确 是 偶然 的 , 误差 是 必然 的 . 做 数值 算法 , 惟一 能 做 的 就 是 尽量 使 误差 不 积累 . 
1.4.3” 浮 点 运算 误差 分 析 
由 于 计算 机 无 法 精确 表示 所 有 的 浮 点 数 , 在 做 浮 点 运算 时 , 如 果 计 算 结 果 无 法 精确 表示 , 此 时 
就 会 产生 的 误差 , 即 舍 入 误差 . IEEE 浮 点 运算 标准 中 规定 , 如 果 a © 5 的 结果 无 法 精确 表示 , 则 用 
一 个 最 接近 的 浮 点 数 来 代替 , 记 为 fl(a © b). 这 里 的 © 表示 加 、 减 、 乘 、 除 四 种 二 进 制 运算 符 . 如 
果 精 确 值 位 于 相 邻 的 两 个 浮 点 数 的 正中 间 , 则 取 其 中 最 低 有 效 位 〈 二 进 制 表 示 ) 为 0 的 浮 点 数 作 
为 近似 值 . 


在 不 考虑 溢出 的 情况 下 , 我们 有 


fl(a@b) =(a@bj(1+5) 或 fl(aob)= mae (1.9) 


其 中 5 表示 浮 点 运算 的 相对 误差 , 满足 |5| < em. 公式 (1.9) 是 分 析 浮 点 运算 舍 人 误差 的 基础 [21, 
page 40]. IEEE 浮 点 运算 标准 同时 也 规定 , 对 于 开 根 号 运算 , 产生 的 误差 同样 也 满足 (1.9). 


引 理 1.4 [21] 设 |56| < em, nem < 1, A 


n 


A 


n 


例 1.19 (多 项 式 运算 的 舍 入 误差 分 析 ) : 已 知 多 项 式 p(x) = 》 arr. 对 于 给 定 的 z, 分 析 计 算 
k=0 

plx) 的 值 时 的 舍 入 误差 . 

解 . 在 对 多 项 式 p(x) = ans” 十 an_1X” 1… 十 Qix 十 ao 求 值 时 ,我 们 通常 是 基于 Horner 法 则 , 即 


算法 1.1 Horner 法 则 


1: p = an 
2: fori =n — 1: —1:0do 
3: pH=xL*pt+a; 

4: end for 


先 看 一 个 具体 的 例子 . 设 p(x) = (x — 2)9, 观测 x = 2 附近 的 舍 人 误差 . 我 们 通过 画图 来 显示 误差 
情况 ( 见 图 1.3 ) . 通过 观察 可 以 发 现 ,用 Horner 法 则 求 值 时 会 在 x = 2 附近 会 出 现 “噪声 带 ” 


-10 -10 


45X10 45X10 
1 1 
0.5 0.5 
o o 
0.5 0.5 
1 1 
-133 1.95 2 2.05 24 “39 1.95 2 2.05 24 


图 1.3 分 别 利用 Horner 法 则 ( 左 图 ) F y= (x-2) (448) 在 区 间 [1.92, 2.08] 上 的 
8000 个 等 分 点 上 求 值 的 结果 


下 面 我 们 基于 伟人 误差 分 析 模 型 (1.9) 来 分 析 多 项 式 求 值 的 误差 情况 . 带 舍 人 误差 的 Horner 
算法 可 写 为 


算法 1.2 带 舍 入 误差 的 Horner 法 则 


l: p = an 
2: fori =n — 1: —1:0do 

3: p= ((a@xp)(1+6;) +ai)(1 +8) %|6| < Em [ði] < em 
4: end for 


所 以 得 到 的 最 终 计算 结果 为 


n-1 i-1 n—-1 
fllz(z))=>， (o +6) [[@+6)a +] aix? 十 (ito + 67)(1 + dnt”. (1.10) 


i=0 j=0 


(BRE j .em <1, WMA 


(1+ 61)-+-(1+6;) < (L+em)? S1+3 +m, 
(1+6) (1+6) > (1— em) 21—j+ em. 
于 是 (1.10) 可 改写 为 
fl(p(x)) = > (1 十 ĉi) ajax" 2 S ae’, 其 中 |ô; < IN- Em. (1.11) 
i=0 i=0 


所 以 fp(z)) 可 看 作 是 男 一 个 多 项 式 的 精确 值 , 且 这 个 多 项 式 的 系数 是 原 多 项 式 系数 的 一 个 小 的 
扰动 . 这 说 明 多 项 式 计算 的 Horner 算法 是 向 后 稳定 的 , 且 系数 的 向 后 相对 误差 不 超过 2n . Em. 
此 , 绝对 误差 为 


|f1(p(2)) — p(a)| = 


n n 
> a,x" 一 a,x" 
i=0 i=0 

n n 
i=0 i=0 


n 
Saja < 2N- Em > ja;z’|. 
i=0 


相对 误差 为 
Mote) | <2n-¢€ > ii | A 
mT Bea 
?一 0 
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1. 


= 


1.2 


1.3 


1.4 


1.5 


1.6 


1.7 


1.8 


课 后 习题 


证 明定 理 1.29: 
设 (-,-) 是 Cn 上 的 一 个 内 积 , 则 存在 一 个 Hermite 正定 和 矩阵 A c Cx" 使 得 (2, y) = y* Ax 
对 任意 x,y E€ C” 都 成 立 . Z, £r A eE Crx 是 Hermite 正定 矩阵 , 则 f(x,y) 全 4z 是 Cn 
上 的 一 个 内 积 . 


YEWA: Jal = im, (三 lo) 


证 明定 理 1.7 中 的 三 个 不 等 式 : 

(1) llel < lzlas Vn llzl， 

(2) llæll < zllz < vn llelo » 

(3) lzlls < lalla < n llel. 

证 明定 理 1.8, 即 Cauchy-Schwartz 不 等 式 : 

w (e) EC ERNE, WHER z, y € C”, A (x,y)? < (x, 2)- (y,y) 


证 明 : 
T Ax 


y 
(1) || Allı = max > Gil |; (2) || Alle = max ——_., 
| lla 1<j<n | ijl | ||2 z#0.v¥0 |zllzllylla 


i=1 


i 
p 


证 明 : 

(1) 对 任意 的 算 子 范 数 上 .||, 有 T= 1; 

(2) 对 任意 的 相 容 范 数 | 小 用 7 > 1. 

证 明 : || Al] 全 max, las 是 矩阵 范 数 , (AA EAA A. 
证 明 ; 
(1) valle < [Alla < vn ||All2; 


1 
(2) Ale < |All < |lAlle ; 


(3) |All2 < [Alle < vnllAll; 
(4) Al < Alh + Alle - 


设 A e R°™” EIEEE. 证 明 : det(A) = +1. 

设 A, B € R"*” 都 是 正 交 矩阵 , H. det(A) = — det(B). 证明: A+ BaF. 

设 A € 及"x2. 证 明 : rank(4) = 1 的 充 要 条 件 是 存在 非 零 向 量 wb € R" 使 得 A = ab. 
设 Ap JE A E R"™” 的 一 个 上 FFE, || .| 是 任意 一 个 算 子 范 数 . 证 明 : |All < |Allp- 


g | ÆR” 空间 上 的 一 个 向 量 范 数 , A € R”, H rank(4) = n. 
WEHA: jz = || Axl] 是 一 个 向 量 范 数 . 


BE || EÈ R 空间 上 的 一 个 向 量 范 数 . EAH: || At |“? = min, |All. 


|z| 


设 AER™" x e R” H x 0. WEH 


wat \ ||? 2 Aa 
ja (: - a) | = Alle gr, 


1.20 


1.21 


1.22 


1.23 


1.24 


1.25 


设 A, B € R”*”, 和 矩阵 


证 明 : ||C]|2 = max{||All2; |Bll2} || Dll2 = max{||All2, || Bll2}- 


证 明定 理 1.26: 
Ae C™" 正定 ( 半 正 定 ) RERE H = (A + A*)/2 正定 CHEX). 
证 明定 理 1.27: 


A E RO” EE EE) 的 充 要 条 件 是 对 任意 非 零 向 量 z e R” A a2? Ax > 0(x7Az > 0). 
设 A € R"™” 正定, 证明: 4-! 也 正定 . 
it A € Rmxn, B € Rnxm, 证 明 : tr(AB) = tr(BA). 


(Sherman-Morrison 公式 ) 设 A € R"*” JER, x,y € R”. 
证 明 : & yT Ale A 1, W) A — ay? 可 道 , 且 


(A-ay?)t =A 


设 A e Ro" JE, X,Y € RO” (m >n). 
WEAR: 4 YT AX 一 了 非 奇 异 , 则 A- XY? 可 道 , 且 


(A= XY) l= A Sa A ee YTA. 


(提示 : 可 利用 公式 B =4 一 BTI(B-4)49 


| 六 ,其 中 Be Cmxm, D e Cnxn 均 为 上 三 角 和 矩阵 , 且 B- DRR. 
Pe B ees I Š 

证 明 : 存在 矩阵 S, 使 得 SLAS = (提示 : 可 设 S = ip 
设 和 矩阵 A, B 都 是 可 对 角 化 的 , 即 A = XA4X7!, B= YApY—!. 


WAH A B 的 特征 值 分 解 . 
设 Jordan 块 矩阵 


试 证 明 : 


其 中 (四 是 二 项 式 系数 , 妈 


k! k 
» PSK; 

(*) - pik—py ” 
P 0 p>k. 


’ 


1.26 考虑 抽样 数据 zl, zz, ,zw HOSED z = = 》 zw 样本 方差 为 (无 偏 估计 ) 
i=l 


试 证 明 : 


对 于 数值 计算 , 上 述 两 种 计算 方法 哪 一 个 更 可 靠 , 为什么? 
1.27 根据 浮 点 运算 的 舍 人 误差 模型 (1.9), 在 不 考虑 溢出 的 情况 下 , 证 明 [21] 


n n ; 
VE. a 
i=l i=l 


1 — Em 


实践 题 

1.28 数值 计算 中 的 误差 . 已 知 sin(z) 的 窜 级 数 展开 为 
: eg g 
sin(x) = x zl 十 可 一 可 +... 


试 利用 该 公式 编程 计算 sin (7 /2) 和 sin(33r/2) 的 值 ,并 与 实际 值 做 比较 ,误差 分 别 多 大 ? 分 
析 原 因 . 


第 二 章 


一 般 来 说 ,求解 线性 方程 组 的 数值 方法 可 以 分 为 两 类 : 直接 法 与 迭代 法 . 本 章 介 绍 直 接 法 , Bll 
Gauss 消去 法 . 直接 法 相对 比较 稳定 , 因此 在 工程 计算 中 很 受 欢迎 . 但 由 于 运算 量 是 O(m3), 这 里 n 
表示 未 知 量 的 个 数 , 当 问 题 规模 较 大 时 , 时 间 会 很 长 . 目前 , 直接 法 主要 用 于 小 规模 或 中 等 规模 线 


线性 方程 组 的 直接 解法 


性 方程 组 的 数值 求解 . 
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2.1 Gauss 消去 法 和 LU 分 解 


2.1.1 LU 分 解 
考虑 线性 方程 组 
Ax =b, (2.1) 
其 中 4 es R” 非 奇异 ,5 eR” 为 给 定 的 右 端 项 . Gauss 消去 法 本 质 上 就 是 对 系数 矩阵 A 进行 LU 
分 解 , 即将 4 分 解 成 两 个 矩阵 的 乘积 
A= LU, (2.2) 
Ep LEŽ TEER, U 为 上 三 角 和 矩阵 . 这 个 分 解 就 称 为 LU 分 解 . 
假定 矩阵 4 存在 LU 分 解 (2.2), 则 方程 组 (2.1) 就 转化 为 求解 下 面 两 个 三 角 方程 组 


Ly = 6, 
Ux =y. 
显然 , 这 两 个 方程 组 都 非常 容易 求解 . 
基于 LU 分 解 的 Gauss 消去 法 描述 如 下 : 


算法 2.1 Gauss 消去 法 
1: 将 4 进行 LU 分解: A = LU, 其 中 工 为 单位 下 三 角 和 矩阵 ,U 为 上 三 角 和 矩阵 ; 
2: 利用 向 前 回 代 ,求解 Ly = b, BIE y = Lt; 
3: 利用 向 后 回 代 , 求 解 Vz = y, BẸ e = DT = (LU)-1b= A'b. 


我 们 知道 , 当 系 数 和 矩阵 4 非 奇 异 时 , 方程 组 (2.1) 总 是 存在 唯一 解 . 但 是 , SP ME a 
阵 都 存在 LU 分 解 . 


定理 2.1 (LU 分 解 的 存在 性 和 唯一 性 ) 设 ACR”. NH BM BET = AEE L FOIE SH 
= ff 2% U, 使 得 A= LU 的 充 要 条 件 是 A 的 所 有 顺序 主子 矩阵 A, = A(1:k,1:k) 都 非 奇 


异 , k =1,2,...,n. 


证 明 . 必要 性 : 设 An 是 4 的 大 阶 顺序 主子 矩阵 ,将 4 = LU 写成 分 块 形式 


[i © 
Lə Lee 


Ay 412 
421 422 


Ui, Ui2 
0 Ux 


LiiU11 LiiU12 
L21U11 L21U12 + L22U22 


可 得 An = LuV. 由 于 Lis Al Un 均 非 奇异 ,所 以 An 也 非 奇 异 . 
充分 性 : 用 归纳 法 . 
当 n = 1 时 ,结论 显然 成 立 . 
假设 结论 对 n 一 工 阶 和 矩阵 都 成 立 , 即 对 任意 mn 一 1 BREE A, 如 果 其 所 有 的 顺序 主子 矩阵 都 非 
奇异 , 则 4 存在 LU 分 解 . 
对 任 一 对 阶 的 矩阵 A, 可 写成 


Ay 412 
421 Ao2|’ 


D3 


其 中 Ay, e RO-Y*O@—Y) 是 和 4 的 n 一 1 阶 顺 序 主子 矩阵 .有 归纳 假设 可 知 , A 存在 LU 分 解 , 即 存 
在 单位 下 三 角 和 矩阵 L 和 非 奇异 上 三 角 和 矩阵 Vii 使 得 


Ay = LiiU11. 
A 
La = Aa Un, Ui = L7 Ate, U22 = A22 — LoU 2 
则 
2 Ay 412 _ LiiU11 LiiU12 Li, Of |U Uie 4 ny 
Agi 422 L041 U22 + L21U12 Lo, 1 0 Ux 
即 4 存在 LU 分 解 . 


下 面 证 明 唯 一 性 . 设 4 存在 两 个 不 同 的 LU 分 解 : 
A= LU = LU, 
其 中 工 和 工 为 单位 下 三 角 和 矩阵 ,UV 和 U 为 非 奇异 上 三 角 和 矩阵 . 则 有 
LiL=UU-!, 


该 等 式 左边 为 下 三 角 和 矩阵 , 右边 为 上 三 角 和 矩阵 , 所 以 只 能 是 对 角 和 矩阵 . 由 于 单位 下 三 角 和 矩阵 的 道 仍 
然 是 单位 下 三 角 和 矩阵 , 所 以 LAL 的 对 角 线 元 素 全 是 1, 所 以 


L =I, 
BI Z = L, Ù =U. 由 归纳 法 可 知 ,结论 成 立 . 口 
2.1.2 LU 分 解 的 实现 过 程 
给 定 一 个 矩阵 
CQ11 Q12 Qin 
a21 Q22 An 
A = E 了 及?x7m 
Ani Qn2 *** Ann 


我 们 可 以 通过 矩阵 初等 变换 来 构造 4 的 LU 分 解 . 
。 第 一 步 : 假定 an A 0, 构造 矩阵 


100 0 
ly 10 ... 0 
i= lig 0 1 ee 0|， 其 中 ge = ,i=2,3,...,n. 
a 


Ing O 0> 1 


易 知 Ly 的 逆 为 


用 Ly ER A, 并 将 所 得 到 的 矩阵 记 为 AG 


MÆR 万 上 后 , 4 的 第 一 列 中 除 第 一 


。 第 二 步 : 类 似 的 ， PTA EEEE E a 
列 除 第 一 个 元 素 外 都 变 为 0. 也 就 是 说 ,假定 ay) 


0 Ing 0 


0 


FA Ly! ER AO), 并 将 所 得 到 的 矩阵 记 为 AC 


A® = L7!A = Lz!1L7!1A= 


。 依 此 类 推 ,， 假定 al D) 4 0(k =3,4,. 


.2-4. 


| 1 00 "| 
一 /21 1 0 0 
t= |—ls1 0 o| . 
—ln1 0 0 I 
), 则 
ail Q12 din 
(1) (1) 
0 a a 
L'A l 22 2n , 
Lo ao 
ee 为 0. 


的 子 和 矩阵 AM (2: n, 2: n) 上 ,将 其 第 一 


A 0, 构造 矩阵 
al) 
其 中 li2 = or 3,4, sn 
22 
), 则 
区 Q12 Q13 3 
1 1 1 
0 ao aD ... of 
0 0 a) . al) 
0 0 a?) tee 2 


.7 一 1]) 则 我 们 可 以 构造 一 系列 的 矩阵 了 3， Da,..., Ln- 


使 得 
a12 
0 as) 
Lb Ly A= | 0 0 
0 0 


Q13 itt Qin 
1 1 
PE) 
2 2 
a33 ON 3n 
Ge. gle) 


为 一 个 上 三 角 和 矩阵 . 我 们 将 这 个 上 三 角 和 矩阵 记 为 0, 并 记 


0 


~w 

>= 

w 

| Co oO O& 
UT 


则 可 得 


这 就 是 4 的 LU 分 解 . 
将 上 面 的 过 程 写 成 算法 , 描述 如 下 : 


算法 2.2 LU 分 解 
1: fork = 1 ton — 1 do 
2: for i = k + 1 to n do 
lik = Gik/Qke  % 计 算 工 的 第 天 列 


3 
4 end for 

5: for j = k to n do 

6: Ukj = Ory % FE U WG k íT 

7 end for 

8 for i = k + 1 to n do 

9 for j = i + 1 ton do 

10: Qij = Qij — likukj % 更 新 A(i 十 1 :n,i 十 1:n) 
11: end for 

12: end for 

13: end for 


Gauss 消去 法 的 运算 量 
由 算法 2.2 可 知 ,LU 分 解 的 运算 量 ( 含 加 减 乘除 ) 为 


由 于 回 代 过 程 的 运算 量 为 O(n2), 所 以 Gauss 消去 法 的 总 运算 量 为 sn + O(n). 


E 评价 算法 的 一 个 标准 就 是 执行 时 间 , 但 这 依赖 于 计算 机 硬件 和 编程 技巧 等 , 因此 直接 给 出 
算法 执行 时 间 是 不 太 现实 的 . 所 以 我 们 通常 是 统计 算法 中 算术 运算 (加 减 乘 除 ) 的 次 数 . 在 
数值 算法 中 , 大 多 仅仅 涉及 加 减 乘除 和 开 方 运算 . 一 般 地 , 加 减 运算 次 数 与 乘法 运算 次 数 具 
有 相同 的 量 级 , 而 除法 运算 和 开 方 运算 次 数 具 有 更 低 的 量 级 . 


E 为 了 尽 可 能 地 减少 运算 量 , 在 实际 计算 中 , 数 , 向 量 和 矩阵 做 乘法 运算 时 的 先后 执行 次 序 为 : 
先 计算 数 与 向 量 的 乘法 , 然后 计算 和 矩阵 与 向 量 的 乘法 , 最 后 才 计算 矩阵 与 矩阵 的 乘法 . 


SB RE LAU 的 存储 

当 A 的 第 i 列 被 用 于 计算 工 的 第 i 列 后 ,在 后 面 的 计算 中 不 再 被 使 用 . 同样 地 , 4 的 第 i 行 被 
用 于 计算 UU 的 第 i 行 后 ,在 后 面 的 计算 中 也 不 再 被 使 用 . 因此 , 为 了 节省 存储 空间 , 我们 可 以 在 计 
算 过 程 中 将 工 的 第 i 列 存放 在 A 的 第 i 列 ,将 U 的 第 i 行 存放 在 A 的 第 i 行 ,这 样 就 不 需要 另外 
分 配 空间 存储 工 和 U. 计算 结束 后 , A 的 上 三 角 部 分 为 U, 其 绝对 下 三 角 部 分 为 工 的 绝对 下 三 角 部 
分 (L 的 对 角 线 全 部 为 1, 不 需要 存储 ). 此 时 算法 可 以 描述 为 : 


算法 2.3 LU 分 解 
1: fork = 1 ton — 1 do 


2 for i = k + 1 to n do 

3: Qik = lik / akk 

4 for j = i + 1 ton do 

5: Qij = Qij — AikAkj 

6: end for 

T end for 

8: end for 

MATLAB 源 代码 2.1 LU 分 解 的 Matlab 代码 

1 |% Matlab code : LU 分 解 

2 |function A = mylu(A) 

3 |n=size(A,1); 

4 |for k=1:n-1 

5 if A(k,k) == 0 

6 fprintf(’Error: A(%d,%d)=0!\n’, k, k); 
7 return; 

8 end 

9 for i=k+1:n 
10 A(i,k)=A(i,k)/A(k,k); 
11 end 
12 for i=k+1:n 

13 for j=i+1:n 

14 A(i,j)=A(i,j)-A(i,k)*A(k,j); 
15 end 

16 end 

17 | end 


IE 为 了 充分 利用 Matlab 的 向 量 运算 优势 , 提高 运算 效率 , 上 面 的 程序 可 改写 为 


MATLAB 源 代 码 2.2 LU 分 解 


function A = mylu(A) 
n=size(A,1); 
for k=1:n-1 
if A(k,k) == 
fprintf(’Error: A(%d,%d)=0!\n’, k, k); 
return; 
end 
A(k+1:n,k)=A(k+1:n,k)/A(k,k); 
A(k+1:n,k+1:n)=A(k+1:n, k+1:n)-A(k+1:n,k)*A(k, k+1:n); 
end 


Oo AN DHT FF WN 一 


jaa 
© 


2.13 ”待定 系数 法 计算 LU OK 
我 们 也 可 以 利用 待定 系数 法 来 实现 矩阵 的 LU 分 解 . 假设 A 存在 LU 分 解 , 即 4 


all Q12 al3 ain 1 Ull Ul2 u3 
a21 Q22 423 aon lı 1 U22 U23 
a31 Q32 433 a3n| = |l31 Ll32 1 u33 
Unl An2 Qn3 ann Int ln2 lnn=i 1 


通过 A L U 中 的 各 元 素 的 值 . 具体 计算 过 程 如 下 : 
(1) 比较 等 式 两 边 的 第 一 行 , 可 


uij = Qij, J=1,2,...,n 
再 比较 等 式 两 边 的 第 一 列 , 可 得 
ail = laun > la SG as, i=2,3,...,n 
(2) 比较 等 式 两 边 的 第 二 行 , 可 得 
azj = luij => 21 一 02 — lo1Uij, j = 2,3,...,n 


再 比较 等 式 两 边 的 第 二 列 , 可 得 


ai = liiui 十 ligue2 > lia = (aiz — li1u12)/u22, 


B k 步 时 , 比较 等 式 两 边 的 第 天 行 , 可 


EE E O 
(3) 以 此 类 推 , 第 


Ukj = akj — (leva +++ + lkk-1Uk-1,j) 了 一 大 天 十 1 用 


比较 等 式 两 边 的 第 k 列 , 可 得 


lik = (au 


liuik li k-1Uk—-1,k)/Ukk, i=k+1,k+2,... 


直到 第 nn 步 , 即 可 计算 出 工 和 UU 的 所 有 元 素 . 
同样 ,我 们 可 以 利用 A 来 存储 工 和 U. 算法 描述 如 下 : 


算法 2.4 LU 分 解 (待定 系数 法 或 Doolittle 方法 ) 


£927. 


= LU, & 


Unn 


1: fork = 1 to n do 


k—1 
2: Ong = Ong — D> ai j=k,k+1,...,n 
i=l. 
1 k-1 
3: Qik = 一 一 ain — Ý aig gh >, t=k+1,k42,...,n 
akk g=1 


4: end for 


相应 的 Matlab 程序 为 : 


O ANAND HT FF WN 一 


ja 
© 


MATLAB 源 代码 2.3 待定 系数 法 LU 分 解 


.2-8 . 


function A = mylu2(A) 
[n,n]=size(A); 
for k=1:n 
A(k,k)=A(k,k)-A(k,1:k-1)*A(1:k-1,k); 
if (A(k,k)==@) 
fprintf(’Error: A(%d,%d)=0!\n’, 1,1); return; 
end 
A(k,k+1:n)=A(k,k+1:n)-A(k,1:k-1)*A(1:k-1, k+1:n); 
A(k+1:n,k)=(A(k+1:n, k)-A(k+1:n,1:k-1)*A(1:k-1,k))/A(k,k); 
end 


214 三 角 方 程 求解 


得 到 A 的 LU 分 解 后 , 我 们 最 后 需要 用 回 代 法 求解 两 个 三 角 方程 组 
Ly=b, Ux=y. 


算法 2.5 向 前 回 代 求解 Ly =b 


1: 
2: 


yı = by 
for i = 2 : n do 
s= bi 
for j = 1 : i — 1 do 
S = S — UijTj 
end for 
21 =S 
end for 


算法 2.6 向 后 回 代 求解 UVz =y 


1: 
2: 
3: 
4: 


5 
6: 
74 
8 


En = Yn/Unn 
fori =n—1:-—1:1do 
5 = Vi 
for j =i+1:ndo 
5 = 8 — UijTj 
end for 


Ti = 8 /Uü 


: end for 


这 两 个 算法 的 运算 量 均 为 12 + O(n). 


2.1.5 HET LU 分 解 
TE LU 分 解 算法 2.2 中 ,我 们 称 os) 为 主 元 . 如 果 ak) = 0, 则 算法 就 无 法 进行 下 去 . 即使 

alk) 不 为 零 , 但 如 果 eir "| 的 值 很 小 , 由 于 伟人 误差 的 原因 ， 也 可 能 会 给 计算 结果 带 来 很 大 的 
we 此 时 我 们 就 需要 通过 选 主 元 来 解决 这 个 问题 . 


例 2.1 用 LU 分 解 求解 线性 方程 组 Ax = b, HP A = 
中 保留 3 位 有 效 数字 . 
解 . 根据 LU 分 解 算法 2.2, 我 们 可 得 


0.02 61.3) ， 
3.43 -8.5 


111 一 1.00, lo1 = a21/all = 1.72 x 102, loo = 1.00, 
u11 = a1, = 2.00 x 1077, u12 = a12 = 6.13 x 10, 


U22 = A22 一 Ip, U42 x —8.5 — 1.05 x 10° x —1.05 x 104, 
即 


ae 1.00 0 2.00 x 107? 6.12 x 10 
~ 14.72 x 102 1.00 0 —1.05 x 104] ` 


解 方程 组 Ly = b 可 得 
yı =6.15 x 10, yo = be — lary, ~ —1.06 x 107. 
解 方程 组 Ux = y 可 得 
T2 = y2/U22 x 1.01, w= (yı — U12 * z2)/u11 x —0.413/u11 zx 一 20.7 
口 
易 知 , 方程 的 精确 解 为 zi = 10.0 和 ze = 1.00. 我 们 发 现 zi 的 误差 非常 大 . 导致 这 个 问题 的 
原因 就 是 |aii| 太 小 , 用 它 做 主 元 时 会 放大 舍 人 误差 . 所 以 我 们 需要 通过 置换 矩阵 来 选 主 元 . 
首先 介绍 置换 矩阵 的 一 些 基 本 性 质 . 
引 理 2.1 %4 P e R?” 为 置换 矩阵 , X CR” 为 任意 矩阵 , 则 
(1) PX 相当 于 将 X 的 行进 行 置换 ; XP MATH X 的 列 进行 置换 ; 
(2) P-L1= PT, op PEER; 


(3) det ( ) = +1; 
(4) 置换 矩阵 的 乘积 仍然 是 置换 矩阵 . 


定理 2.2 ( 选 主 元 LU 分 解 的 存在 性 ) 设 A cR” 非 奇 异 , 则 存在 置换 矩阵 Pe, Po 以 及 单位 下 
= A FE Lp ERAL AE UV, 使 得 PAP = LU. 其 中 已 和 书 中 只 有 一 个 是 必需 的 . 


证 明 . 用 归纳 法 . 
X n = 1f, PR = P = L=1,U = A Bpo]. 
假设 结论 对 n — 1 成立. 
if A E RO 是 nn 阶 非 奇异 矩阵 , 则 A 至 少 存在 一 个 非 零 元 , 取 和 置换 矩阵 Ê A Pp 使 得 


Q11 412 


PÊ AÊ, = 
Ag, Age 


b] 
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其 中 ay £0, A22 E€ RO D*(-Y, 


u11 = 011, Ui =A, La = Agi /ayy, U22 = 422 — Lo U2. 


则 有 
$ j un Uif _ |an Á - BAP. 
La I} | 0 Uz 421 A22 
两 边 取 行列 式 可 得 
ui Ui2 


0 £ det(P, AÊ») = det (2 j ) - det ( 


所 以 det(U22) Æ 0, BI U22 € RO-D*(—) AB arse. 由 归纳 假设 可 知 ,存在 置换 矩阵 P 和 户 使 得 


= Qll det (U22). 
0 U» ) 11 (U22) 


P Uz2 P> = L229, 
其 中 Lo 为 单位 下 三 角 和 矩阵 , U2 为 非 奇 异 上 三 角 和 矩阵 . 取 


1 0 


Ê, P =®ĤÊ, 


则 有 

1 0 
0 B 
1 0 
0 È 


ui U12 
0 Uz 


u11 U12 
0 PTU PY 
1 0 
0 PIL» 
ul UP 
0 U22 


1 0 
0 È 


ul U1i2 
0 Us PT 


其 中 工 为 单位 下 三 角 和 矩阵 , U 为 非 奇 异 上 三 角 和 矩阵 . 
由 归纳 法 可 知 , 结论 成 立 . 口 


TS" 第 大 步 时 , 如 何 选取 置换 矩阵 P 和 Pa? 

1. 选取 P 和 有 殊 使 得 主 元 为 剩 下 的 和 珑 阵 中 绝对 值 最 大 , 这 种 选取 方法 称 为 “全 主 元 Gauss 消去 

法 ”简称 GECP (Gaussian elimination with complete pivoting); 

2, 选取 Pi M Po RETKE k IIP k EIR n AIER P, 绝对 值 最 大 ,这 种 选取 方法 称 为 “部 
分 选 主 元 Gauss 消去 法 ”简称 GEPP (Gaussian elimination with partial pivoting), 此 时 也 = T, 
因此 也 称 为 列 主 元 Gauss 消去 法 . 

© GECP HE GEPP 更 稳定 ,但 工作 量 太 大 , 在 实际 应 用 中 通常 使 用 GEPP 算法 . 

© GEPP 算法 能 保证 工 所 有 的 元 素 的 绝对 值 都 不 超过 1. 


算法 2.7 部 分 选 主 元 LU 分 解 


1: p 二 1:m; % 用 于 记录 置换 矩阵 

2: fori = 1ton—1do 

3: aki = maxi<j<n|aji| % 选 列 主 元 
4: if k ~= i then 


5: for j = 1 to n do 

6: t = Qij 

Js Qij = Qkj 

8: akj 二 t+ % RRA MPR IA‘ KA 
9: end for 

10: p(k) =i 

1: pii)=k % RA RRS 

12: end if 

13: for j =i+1tondo 

14: aji 一 ajii/aii WITH LWA iz) 
15: end for 


16: for j = i + 1 to n do 


17: for k = i + 1 ton do 
18: dg, = Qjk — Aji * Qik % 更 新 A(i 二 1:n,i 十 1 :n) 
19: end for 
20: end for 
21: end for 
相应 的 Matlab 程序 如 下 : 
MATLAB 源 代码 2.4 部 分 选 主 元 LU 分 解 
1 |function [A,p] = myplu(A) 
2 |[n,n]=size(A); 
3 |p=1:n; 
4 |for i=1:n-1 
5 [a,k]=max(abs(A(i:n,i))); 
6 if a==0 
7 error(’?Error: 第 %d 步 的 列 主 元 为 O!l\n’, i); 
8 end 
9 k=k+i-1; 
10 if ke=i 
11 Atmp=A(i,:); A(i,:)=A(k,:); A(k,:)=Atmp; 
12 ptmp=p(i); p(i)=p(k); p(k)=ptmp; 
13 end 
14 A(it1:n,i)=A(i+1:n,i)/A(i,i); 
15 A(it1:n,i+1:n)=A(it1:n,it1:n)-A(it1:n,i)*A(i,i+1:n); 
16 | end 


例 2.2 用 部 分 选 主 元 LU 分 解 求解 线性 方程 组 4z = 其 中 A= | 


0.02 ile- HE 


2-12 . 


在 运算 过 程 中 保留 3 位 有 效 数字 . 
解 ， 由 于 |azi| > janj 根据 部 分 选 主 元 LU 分 解 算法 , 我们 需要 将 第 一 行 与 第 二 行 交 换 , 即 取 


0 1| tees r 
Pe : ,然后 计算 A = PA 的 LU 分解 ,可 得 

lı = 1.00, lor = Go1/@11 = 5.83 x 107°, 122 = 1.00, 

uil = Q11 = 3.43, u12 = a12 = —8.50, 

u22 = Gigg — l21U12 ~ 6.13 x 10 + 4.96 x 107? ~ 6.13 x 10, 
即 

1.00 0 | 13.43  —8.50 
PA : 
5.83 x 107? 1.00} | 0 6.13 x 10 


解 方程 组 Ly = PT 可 得 
yı = 2.58 x 10, yo 6.12 x 10. 


解 方程 组 Ux = y 可 得 
22 = y2/U22 © 0.998, zı = (yı — u12 * z2)/u11 ~ 34.3/u11 & 10.0 
所 以 ,数值 解 具 有 3 位 有 效 数字 . 口 
2.1.6 EERE 
我 们 可 以 通过 部 分 选 主 元 LU 分 解 来 计算 矩阵 的 逆 . 设 PA = LU, Ml 
A`! = PTUTIL E, 
等 价 于 求解 下 面 2n 个 三 角 线 性 方程 组 


Ly, = Pe, Ux; = yi, = 
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2.2 ”特殊 方程 组 的 求解 
22.1 对称 正定 线性 方程 组 
考虑 线性 方程 组 
Ar=b 
其 中 A es R?” 对 称 正 定 的 . 
我 们 首先 给 出 对 称 正定 和 矩阵 的 几 个 基本 性 质 . 
定理 2.3 设 4 E R™, 
e 4 对称 正定 当 且 仅 当 A 对 称 且 所 有 特征 值 都 是 正 的 ; 
e 4 对 称 正 定 当 且 仅 当 X74X 对 称 正定 , 其 中 X eR? 是 一 个 任意 的 非 奇 异 矩 阵 ; 
e Z ARREZ, N A 的 任意 主子 矩阵 都 对 称 正定 ; 
o ARREZ, N 4 的 所 有 对 角 线 元 素 都 是 正 的 , E max{losl} < max{aii}, 即 绝对 值 最 大 
iAj i 
的 元 素 出 现在 对 角 线 上 . 


定理 2.4 (Cholesky 分 解 ) 设 A c R?” 对 称 正 定 , 则 存在 唯一 的 对 角 线 元 素 为 正 的 下 三 角 和 矩阵 
L, 使 得 
A=LL'. 


该 分 解 称 为 Cholesky 分 解 . 


证 明 . 首先 证 明 存 在 性 , 我 们 用 数学 归纳 法 来 构造 矩阵 艺 . 

当即 = 工时 , 由 A 的 对 称 正定 性 可 知 an > 0. 取 1 = yan PIH. 

假定 结论 对 所 有 不 超过 mn 一 工 阶 的 对 称 正 定 矩 阵 都 成 立 . 设 A E R 是 nn 阶 对 称 正定 , 则 4 
可 分 解 为 


T 
o {au A| | van Of; Jl 0 Jay, 0 
4 Ax avs I| |0 Ax} | 高 和 如 


m 1 0 ee 7 
其 中 Ago = Ago 一 A1, A12/a11. 由 定理 2.3 可 知 ， È 4 | 对 称 正定 , 故 Ago 是 n — 1 阶 对 称 正定 
22 


和 矩阵. 根据 归纳 假设 , 存在 唯一 的 对 角 线 元 素 为 正 的 下 三 角 和 矩阵 元 , 使 得 Ago = LLT. & 


L= 4/ Q11 0 1 0 o 4/ Q11 0 
A Ilo E| |-=A47, L 
Jair 12 Jain 12 
易 知 , 工 是 对 角 线 元 素 均 为 正 的 下 三 角 和 矩阵 , H. 
T 
T 4/11 0 1 0 1 0 4/ Q11 0 
eS FFNS ES EE 
varı“ 12 varı“ 12 


由 归纳 法 可 知 , 对 任意 对 称 正 定 实 和 矩阵 A, 都 存在 一 个 对 角 线 元 素 为 正 的 下 三 角 和 矩阵 L, 使 得 
A=LL'. 


唯一 性 可 以 采用 反 证 法 , 留 做 作业 . 口 
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Cholesky 分 解 的 实现 
iz A = LL’, BẸ 


Q11 Q12 li | = s 
a21 a22 am| l21 log loo ln2 
Ani Qn2 lni ln2 lan | | a 
直接 比较 等 式 两 边 的 元 素 可 得 
n j—1 
Qij = Shake = Ly gli + 》 lizljk, 1,9 = 1,2,...,n. 
k=1 k=1 


根据 这 个 计算 公式 即 可 得 下 面 的 算法 : 


算法 2.8 Cholesky 分 解 算法 


1: for j = 1 to n do 


1/2 

j-i 

2: ljj = (ay — Xia Br) 

a fori = j + 1 to n do 

j lig = (aig — YZ] likljk)/ljj 
5: end for 

6: end for 


关于 Cholesky 算法 的 几 点 说 明 
。 与 LU 分 解 一 样 ,可 以 利用 A emai L; 
© Cholesky 分 解 算法 的 运算 量 为 a + O(n?), KAA LU 分 解 的 一 半 ; 
© Cholesky 分 解 性 与 全 主 元 Gauss 消去 法 相当 ) , 故 不 需要 选 主 元 


算法 是 稳定 的 ( 稳定 


改进 的 Cholesky 分 解 算法 
为 了 避免 开 方 运算 ,我 们 可 以 将 4 分 解 为 : A= LDL", Bil 


he ay2 ra | 1 | k | i /21 nl 
a22 … an lı 1 d2 1 ln2 
下 Qn2 t a enue ln n-1 | | | | 
过 待定 系数 法 可 得 
n go 
ij = 5 likdkljk = djlij + > Lindel jk, 4.9 = 12 aasa ts 
k=1 k=1 


基于 以 上 分 解 来 求解 对 称 正 定 线性 方程 组 的 算法 称 为 改进 的 平方 根 法 : 


算法 2.9 改进 的 平方 根 法 
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1: % 先 计算 分 解 

2: for j = 1 to n do 

3 dj = ajj — Di Grdr 

4: for i = j + 1 to n do 

5: lig = (ag — Ei laden) 
6: end for 

7: end for 

8: % 解 方程 组 : Ly =b Al DLT x = y 

9: yı = by 


for i = 2 to n do 
yi = bi — De lipyg 
: end for 


一 


: Tn = Yn/dn 
: fori = n — 1 to 1 do 

Ti = Yi/di — ais UiTk 
end for 


=-= =e me 
Rg 


2.2.2 ”对 称 不 定 线性 方程 组 
设 4 E RO” BB AT TRA EE, A 存在 LU 分 解 , 即 4 = LU, 则 可 写成 
A=LDL', 
其 中 D EEA U 的 对 角 线 元 素 构成 的 对 角 和 矩阵 . 然而 , 当 4 不 定时 , 其 LU 分 解 不 一 定 存在 . 若 采用 
选 主 元 LU 分 解 , 则 其 对 称 性 将 被 破坏 . 为 了 保持 对 称 性 , 在 选 主 元 时 必须 对 行列 进行 同样 的 置换 ， 


即 选 取 置 换 和 矩阵 P, 使 得 
PAP? = LDL’. (2.3) 


通常 称 (2.3) 为 对 称 和 矩阵 的 LDLT 分解 . 不 幸 的 是 , 这 样 的 署 换 矩阵 可 能 不 一 定 存在 , 即 分 解 (2.3) 
不 一 定 存在 

0 1 1 

1 0 1l. 

1 1 0 


由 于 A 的 对 角 线 元 素 都 是 0, 对 任意 置换 矩阵 P, EE PAPT 的 对 角 线 元 素 仍 然 都 是 0. 因此 , FE 
阵 4 不 存在 分 解 (2.3). 


基于 以 上 原因 , Aasen[1] 提出 了 下 面 的 分 解 


Gil 2.3 设 对 称 和 矩阵 


A= 


PAP? = LTL’, (2.4) 
其 中 忆 为 置换 矩阵 , 工 为 单位 下 三 角 和 矩阵 ,人 为 对 称 三 对 角 和 矩阵 . 分 解 (2.4) 本 质 上 与 部 分 选 主 元 
LU 分 解 是 一 样 的 ， 
具体 实施 细节 可 参见 [52]. 
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mer 事实 上 , 也 可 以 考虑 2 x 2 块 主 元 , 使 得 


PAP? = LDL’, 


其 中 D FEW Pa FE, 即 块 对 角 和 矩阵 且 对 角 块 的 大 小 为 1 或 2. 目前 比较 广泛 使 用 的 块 主 


元 策略 为 Bunch-Kaufman 策略 , 详情 可 参见 [7]. 


223 ”三 对 角 线 性 方程 组 
考虑 三 对 角 线 性 方程 组 Ar = f, 其 中 A 是 三 对 角 和 矩阵 : 


我 们 假定 


[bi] > |a| > 0， | 如 | > lan| > 9, 


且 
[bi] > las] + le], aici #0, 2 =2,...,n—1. 


即 4 是 不 可 约 弱 对 角 占 优 的 . 此 时 ,我 们 可 以 得 到 下 面 的 三 角 分解 


An bn | an An 1 | 


由 待定 系数 法 , 我 们 可 以 得 到 递 推 公式 : 


Q1 = bı, 


By = cl/al = c /b1, 


Qi = bi — aibi—1, 
B= Ci/ oi = ci/ (bi — aißi-1), 1=2,3,...,n—1 


On = bn — GnBn—-1. 


为 了 使 得 算法 能 够 顺利 进行 下 去 , 我 们 需要 证 明 oa A 0. 
定理 2.5 hast hee 4 满足 条 件 (2.5) 和 (2.6). 则 ATH A 
(1) [ai] = |bi] > 0; 


(2) 0< |B) <1Li=1,2,....n—-h 


(2.5) 


(2.6) 
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证 明 . 由 于 4 是 不 可 约 且 弱 对 角 占 优 , 所 以 4 非 奇 异 . ( 见 定理 6.8) 
结论 (1) 是 显然 的 . 
下 面 我 们 证 明 结 论 (2) 和 (3). 
HF 0 < fal] < |bi|, H. 81 = c1/b1, PTV 0 < |81] < 1. X az = bo 一 a2B1, 所 以 


laz| > |b2| — jag] - B11| > |b2| — laz| > |c2| > 0, (2.8) 


læ] < |b2| + Jaa] - ||81]| < |b2| + laol. (2.9) 


再 由 结论 (2.8) 和 Bo 的 计算 公式 可 知 0 < |b] < 1. 类 似 于 (2.8) 和 (2.8), 我 们 可 以 得 到 


|a3| > |b3| 一 oa| :|B2l| > |b3| — las| > |c3| > 0， 
las| < |b3| + las| - || 82] < lbs| + lasl. 
依 此 类 推 ,我 们 就 可 以 证 明 结 论 (2) 和 (3). 口 


由 定理 2.5 可 知 , 分 解 (2.7) 是 存在 的 . 因此 , 原 方程 就 转化 为 求解 Ly = f 和 Uz = y. 由 此 便 
可 得 求解 三 对 角 线 性 方程 组 的 追赶 法 , 其 运算 量 大 约 为 8n — 6. 


算法 2.10 追赶 法 
: By = ci1/b1 


: yı = fi/01 
: for i = 2 to n — 1 do 


1 

2 

3 

4 Qi = bi — aibi—1 

5: Pi = G/ 04 

6 Yi = (fi — aiyi-1)/Qi 
7: end for 

8: An = bn — anBn_1 

9: Yn = (fn — anYn-1)/Qn 
10: En = Yn 

11: fori = n — 1 to 1 do 

12: Ti = Yi — Biritl 

13: end for 


| 哈 - 具体 计算 时 , 由 于 求解 Ly = f 与 矩阵 LU 分 解 是 同时 进行 的 , 因此 , ai; 可 以 不 用 存储 .但 6， 
需要 存储 . 


| 号 EF [Bi] < 1, 因 此 在 回 代 求解 zi 时 ,误差 可 以 得 到 有 效 控制 | 


需要 指出 的 是 ,我 们 也 可 以 考虑 下 面 的 分 解 
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但 此 时 [yi] 可 能 大 于 1. 比如 ?2 = a2/b1, 因此 当 [bi] < |az| 时 , lol > 1. 所 以 在 回 代 求 解 时 , 误差 
可 能 得 不 到 有 效 控制 . 另外 一 方面 , 计算 yi 时 也 可 能 会 产生 较 大 的 售 人 误差 (大 数 除 以 小 数 ). 但 
如 果 A 是 列 对 角 占 优 , 则 可 以 保证 [oil < 1. 


E 如 果 4 是 ( 行 ) 对 角 占 优 , 则 采用 分 解 (2.7); 如 果 A 是 列 对 角 占 优 , 则 采用 分 解 (2.10)， | 


22.4 人 带 状 线性 方程 组 
设 A e RO” 是 带 状 矩阵 , FOP a GE bp, 上 带宽 为 gr 即 


aij = 0 for i>j+6, or i< j-— buy. 


其 形状 如 下 图 所 示 : 


2.1 ÀP JRH E 


PPAR EB, 其 LU 分 解 有 如 下 性 质 : 


定理 2.6 i A cR” ARRE, 其 下 带宽 为 01,， 上 带宽 为 bu. 若 A= LU 是 不 选 主 元 的 LU 
分 解 , 则 工 为 下 带宽 为 bi 的 带 状 矩阵 , [为 上 带宽 为 by IRAE. 求解 Ar = bt af ERK 


约 为 2nbrbv + 2n(br + by). 


若 采 用 部 分 选 主 元 的 LU 分 解 , 则 有 


定理 2.7 KACR™” 是 带 状 和 矩阵 , 其 下 带宽 为 b1L, 上 带宽 为 by. 若 PA=LU 是 部 分 选 主 元 的 
LU 分解, 则 U 为 上 带宽 不 超过 by + by MRS, LAF REA br tO RABI” BOL 


每 列 的 非 堆 元素 不 超过 bz 十 1 个 . 


2.2.5 ”Toeplitz 线性 方程 组 
i Tn € R°%” 是 Toeplitz Fa, Bl 
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易 知 Toeplitz 矩阵 是 反 向 对 称 ( persymmetric ) 矩阵 , 即 关 于 东北 -西南 对 角 线 对 称 . 记 为 n 阶 
反问 单位 矩阵 , 即 


DIJE = Jyt = Jn. 


引 理 2.2 4# A cR” £ZRANMREE SARS 


A= J,A Ja 或 JnA= AT Jn. 


若 4 可 逆 , 则 可 得 
Mai a ty 


即 反 向 对 称 和 矩阵 的 逆 也 是 反 回 对 称 和 矩阵 . 
注 : Toeplitz 矩阵 的 逆 是 反 向 对 称 矩 阵 ,但 不 一 定 是 Toeplitz 矩阵 . 
Yule-Walker 方程 组 

假定 Ty, 对 称 正定 , 考虑 线性 方程 组 


Tx = i, (2.11) 


EEP rp = [ti to,..-,tn—1, tn]. 这 类 线性 方程 组 称 为 Yale-Walker 方程 组 , 其 中 tn 为 任意 给 定 的 
由 于 Tn 对 称 正定 , 所 以 to > 0. 因此 我 们 可 以 对 Tn 的 对 角 线 元 素 进行 单位 化 . 不 失 一 般 性 ， 
我 们 假定 Tn 的 对 角 线 元 素 为 1, 即 


1 ti es ti 
i 
; % A 
las oe ty 1 | 
由 于 方程 组 右 端 项 的 特殊 性 , 我 们 可 以 通过 递 推 来 求解 . 
W rp, we The = rp Bfe, FSE Thpir = rki 的 解 zk 记 


Zk 
Tk+1 = ) 
Qk 


WW Thpitk+i = 一 rp41 可 写 为 


因此 可 得 


Zk 一 T;, (rg = AkJkrk) = Tk 一 anT, Terk, (2.12) 


Ak = —tk+1 一 re zk. (2.13) 
由 于 Te ESLIRE, BTL = 及 T-1. 所 以 可 得 


=Í —1 
Zk = k — ORT, Jere = Tk — Onde, Tk = £k + Onder. 


代入 (2.13) 可 得 
(1+ rp cp)aK = —tk41 一 rE Inte. 
X 
T 
I JkEk Tk Jkr k I JrTk Tr 0 
0 1 fede Wo. 1 0 l+rp zp, 


由 Tua 的 对 称 正 定性 可 知 1 + or Poy, > 0, 故 可 得 eppi 的 计算 公式 
a —tk41 — TE Sere 
k 1+ tr? ai, 
运算 量 为 Ol). 因此 , 我 们 就 可 以 从 一 阶 Yule-Walker 方程 出 发 , 利用 递 推 公式 (2.14) 计算 
Trt = 一 mm 的 解 . 总 的 运算 量 大 约 为 3n2. 
为 了 减少 运算 量 ,我们 引入 一 个 变量 把 全 1 上 rz M 


Zk = Zk apdpry. k=1,2,.... (2.14) 


T 
Broa = 1+ rkyitk+ 


= 14 [te 


Tk 十 QAkJkEk 
Qk 


=14 rp xr +agltky +r} Jeon) 
= (1 — ag) Bp. 


于 是 可 得 求解 Yule-Walker 方程 组 的 Durbin 算法 , 总 运算 量 大 约 为 2n2. 


算法 2.11 求解 Yule-Walker 方程 组 的 Durbin 算法 
1: 输入 数据 : t = [t1,t2,...,tn] % 注 : 这 里 假定 to0 = 1 
2: 7(1) =-t,P=La=—-t, 
3: for for k = 1 to n — 1 do 
& B=(1-a)p 
5 a = = (te — Dfi ten iz(i)) /8 
6: g(1:k)=a2(1:k)+ax(k:-1:1) 
7: z(k+1)=a 
8: end for 


“2-21 . 


一 般 右 端 项 的 Toeplitz 线性 方程 组 


考虑 一 般 右 端 项 的 方程 组 
Tat =b, 


其 中 Ty 是 对 称 正定 Toeplitz HWE, b = [b1, bo bn)”. 与 求解 Yole-Walker 方程 组 类 似 ,我们 利用 
递 推 方法 来 求解 
假定 zk 和 yi 分 别 是 方程 组 
Tka = [b1, b2, ee ba) = pt’) 


All 
Try = —[ti,to,..., tr] 


的 解 . 设 ope = [F , url? BE Thpir = b+ 的 解 , 则 可 得 
tide 1 Uk bkal 


zk = T10 — ppT7 Jere = £k — HEI TE rk = Ek + deve, 


通过 计算 可 得 


= bk+1 — rE Ieee 
1+ rE Yk 


所 以 ,我 们 可 以 先 计 算 The = 0) Al Thar = 一 rw 的 解 , 然后 利用 上 述 公 式 得 到 Theyre = be 的 
解 , 这 就 是 Levinson 算法 , 该 算法 的 总 运算 量 大 约 为 472. 


算法 2.12 求解 对 称 正定 Toeplitz 线性 方程 组 的 Levinson 算法 
1: 输入 数据 : t = [t1, t2, sets ,tn1] All b = [01, b2, = ., bn] % 这 里 假定 | 
2: y(1) = —tı, z(1) = b1, 8 = 1, a = —tı 
3: for k = 1 ton — 1 do 
4: B= (1 = a?)B 


5 p= (oa -Di tet-iz(D) ) /B 

6: g(l:k)=a2(1:k)+az(k:-1:1),2(k+1) =a 
7: if k < n — 1 then 

8: a= — (te — Dia ten iy) /8 

9: y(1:k)=y(1:k)+ay(k:—1: 1) 

10: y(k+1)=a 

11: end if 


12: end for 
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2.3 ”扰动 分 析 


考虑 线性 方程 组 
Ax =b. 


设 x* 是 精确 解 , 公 是 通过 数值 计算 得 到 的 近似 解 . 假定 满足 线性 方程 组 
(A+ 5A) = b + ôb. 
下 面 讨论 ôr 全 全 一 zz 的 大 小 , 即 向 后 误差 分 析 . 


2.3.1 dc 与 人 的 关系 


定理 2.8 设 |‖ | 是 任 一 向 量 范 数 ( 当 该 范 数 作用 在 矩阵 上 时 就 是 相应 的 导出 范 数 N gz 与 


人 满足 下 面 的 关系 式 
lI6z|| 


164| lial 上 


el slat lal (Fol a 
jl jal + TAN Tel 


4 ôb = 0 it, Æ 


lozll 34 


< ATAT 


证 明 . 由 等 式 (A +8A)ê = b + 6b = Ax* — ôb EJAN A(ê — x*) = —5 AZ + ôb, 即 
6x = A-!(—5 Aé + 6b). 
所 以 
5z| < IATH- (1641 人 | + 8è), (2.16) 


即 


özl a (teal 50] ) 
ZI < JATH- JA m ss 
jay $'A ANT + Tara 


车 ôb = 0, 则 可 得 


lzll 
I 人 | 


164l 
|All 


< K(A) 


23.2 ôx 5 x* 的 关系 


引 理 2.3 设 | .| 是 任 一 相 容 范 数 , X < R”, # |X| < 卫 则 了 一 和 可 逆 , 且 有 


(XY xt 和 I-X) 
k=0 


e 
11x 
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证 明 . 先 证 明 级 数 > XF 收敛 , 即 其 每 个 分 量 都 收敛 . 记 x 为 X* 的 (i,j) 元素. 由 范 数 的 等 价 
性 可 知 , 存在 常数 < 勒 得 对 任意 矩阵 Y € R 都 有 YF < ell ||. 所 以 


a|s l; 


< c||x*| < elx]. 


注意 , KEW cA OX Mlk MICK. HALE XI < 1 可知, 级 数 2 c||X||* Weak, Br LA Z 


SS sC 也 收敛 即 SS Kx 收敛 
k=0 k=0 


因为 lim |X*|| =0,B (T-X) +X +X? 4---4 X*) = 1 XAH, Pry 
—0o 
= k_ _ yktly) _ 
(I ae jim (1 — X**) =], 
即 
= 
k=0 

且 


IQ -= x) P< DIA- ay 


HH (A +6A)% = b + ôb FAITE 


6x = (A + ôA) 


假定 IAI] R WHE ||A~*5 Al] < A'I] IA 
||| 


-1(b + 6b — Ar* — 6Aa*) 
= (T+4-164)-14- 


1(_6Ax* + 6b). 


| < 1, 则 由 引 理 2.3 可 得 


A ) 


ay (al + le) 
A A 
Bat TAI” TAIT 


1 1 1 
pep SM + 4 6A NIA 1-( 
el 60 
<p (+ 
A 
1 JAA 
A y (Ua He 
$ Tka) Bar TAT * To 


当 54l| — 0 时, 我们 可 得 


a 


[al xn) (Al 
le" Â 7 kea) PAE | JA] 


+ [et 
j 


oA] eal 
sta) (Ta j m) 


(2.17) 
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定理 2.9 R AER” FRE |A! 8A] <1, a 


zl K(A) |64 odl 
< car ( + 上 


lel S -qa BAL IAT TI 
如 果 |54|| = 0, 则 
1 [jab]. (6 ol 


AD [al < a < “a 


WEAR. 只 需 证 明 左 边 一 个 不 等 式 即 可 . 由 于 64 = 0, 所 以 Ada = 5b. 两 边 取 范 数 ,然后 同 除 ||x*|| 可 
得 
|All loz]. [Adel looll 
lz “ip tol) = ATT oll 


所 以 结论 成 立 . 口 


定理 2.10 设 4e 表 "xm aH, MA 


in| ee : A+6A ta) = 
|| All 


1 
k2(A) 


证 明 . id d Ê min {||6Allo : A+ 6A 奇异 } ,只 需 证 明 d = 
先 证 明 d > p: 若 上 1642 < ||Atlas MY 


| AS Alla < ||A7* 2-5 Alla < 1. 


由 引 理 2.3 TA I + 4-164 非 奇异 . 因此 4+54= A(T + 4-154) 也 非 奇 异 , 这 表明 使 得 A + OA 
奇异 的 54 必须 满足 54|l > ATH} 即 
1 
d> ———. 
~A 
下 面 证 明 d< paip 即 证 明 存在 64 满足 54ll = A7 at 使 得 4+ 54 奇异 . 由 范 数 的 定 
义 可 知 


14 la = max | Az|z, 


lzl2= 
故 存在 zx 满足 ||zjl2 = 1 使 得 
14 lz = || Allo. 


Sy = Att/\|A-*e|l2, W |lyll2 = 1, H. 


zy la = re ia 多 zl> = me ly? z| .llzllz = me ly" zl. 


HF |y2| < lyll2 llel = 1, AS 2 = y HA [y?2| = 1, PWA ey" ll = 1. ti 


T 
ry 
§fA=—_ 
|A7*l2 
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则 
eyT|l2 
0All, = = . 
64 = Jaj ~ TA 
下 面 证 明 A 上 54 奇异 我 们 只 需 证 明 以 A + 54 为 系数 矩阵 的 齐 次 线性 方程 组 有 非 零 解 . 由 于 


14 一 zl = || A7" l2 容易 验证 


Ate xy? x £ 


yY = = 
Atel IAH" MAH IAT 
BD A+ 6A RR Ad ae 


(A+8A)y=A 


0, 


综 上 可 得 i 
d = min {||5A]|2 : A+ 6A a5} = jaj 
口 
号 ”定理 2.10 的 结论 对 所 有 p- 范 数 都 成 立 , 参见 [13, 24]. 
ire 64 1 
: 人 D al 
dist,(A) = mind a A+6A as) = ely 
表示 A 距离 奇异 矩阵 集合 的 相对 距离 . 


2.3.3 ór 与 残 量 的 关系 
这 是 研究 线性 方程 组 的 扰动 理论 的 一 个 较 实 用 的 方法 . 
记 残 量 ( 残 差 ) X r= b- Ak, 则 有 


éz = &—2* = ĉ — Ab = AT! (Aĉ — b) = —A`tr, 


所 以 可 得 


lszl < AT Mel 


这 个 佑 计 式 的 优点 是 不 用 去 估计 OA 和 Ob 的 大 小 . 由 于 在 实际 计算 中 ,7 通常 是 可 以 计算 的 , 因此 
该 估计 式 比 较 实 用 . 


定理 2.11 HACER” EFR, || .| 为 任 一 算 子 范 数 . 记 7 = b- AZ, Ml 


(1) 车 存在 让 满足 As = b M JÂ- Al > Ll l 


(2) 存在 54 RR Joal = El, E (4 +54) =b. 


lê? 


证 明 . (1) 由 A& =5 可 知 
(A-—A)é=b- Aĉ =r. 
所 以 有 
Irl = ||(A — A)2|| < IÂ- All- llêll, 
即 


lirl 


|A— All = 


[I 
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ree 


(2) 以 2- 范 数 为 例 , 取 04 = 即 可 . 口 


(2113 
2.3.4 ”相对 扰动 分 析 


前 面 给 出 了 解 的 误差 bx 的 界 是 与 条 件数 (4) 与 54 各 成 比例 的 . 在 许多 情况 下 , 这 个 界 
是 令 人 满意 的 . 但 有 时 会 相差 很 大 , 这 个 界 就 不 能 很 好 的 反映 实际 计算 中 解 的 误差 . 


0 1 
求 得 的 解 的 误差 都 很 小 . 但 系数 矩阵 的 谱 条 件数 为 kz(4) = y, 当 7 很 大 时 , kz(4) 也 很 大 , 因此 误 
差 界 (2.15) 和 (2.17) 可 以 是 很 大 . 
针对 这 个 问题 , 我 们 按 分 量 进行 分 析 . 记 


Oa11 总 二 001 
Oa22 ? 002 i 


例 24 wA=|" l „b= H ,其 中 > 1. WW Ar = 的 精确 解 为 z* = ) , 任何 合理 的 直接 法 


ðA = 


并 设 |5aij| < elaijl, [bs] < elbi]. W 


001 + bı 001 + A ôbı 一 ôa11 
` 一 -1 —1 Se oo 
sz = |27] - 0al11 + a11 _ | oa +7 _ | ĝanta 
o — T2 002 + bz ôbə + 1 002 一 da22 
ee | —1 ees ee 
0a22 + a22 6a92 + 1 a22 + 1 
故 
E 
< 
[Sell < = 
如 果 6b = 0, 则 
lszll < 


这 个 界 与 (2.15) 或 (2.17) 相差 约 7 倍 . 
相对 条 件数 
为 了 得 到 更 好 误差 界 , 我们 引入 相对 条 件数 (A), BI 
Ker(A) = || 14711-A] ||, 
有 时 也 称 为 Bauer 条 件数 或 Skeel 条 件数 . 
假定 64 和 55 满足 |54| < elA| 和 |6b| < slol. 则 由 (4 十 64)% = b + ôb AE 


|x| = |A~1(—6.A& + ôb) 
< 14 - (I8A] - |2| + |b) 
<|A4 |: (elA| - 12| + elèl) 
= ¢|A*|- (|A| - |ê| + |èl). (2.18) 


Æ ôb = 0, WA 


lszll = || [Sz] || < ell AT? |A] - lêl < ell A) 1A Ii- Iê, 
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即 


loz| _ || [A72] - [A] |] -€ = roal A) -€ (2.19) 


|e) 


相对 条 件数 有 下 面 的 性 质 
引 理 2.4 ACR” 非 奇异 , DER” ATA ABZ, 则 


Ker(DA) = For(4). 


定理 2.12 H A cR? SH. 使 得 |64| < e|Al, |5 < eld] MA, 且 满足 
(A+ 5A)@ = b+ ôb 


的 最 小 的 s > 0 称 为 按 分 量 的 相对 向 后 误差 , 其 表达 式 为 
Iri| 


(IAI -êl + lol)? 


E€ = Max 
1<i<n 


更 多 关于 数值 计算 的 稳定 性 和 算 阵 扰动 分 析 方 面 的 知识 , 可 以 参考 [21, 38, 50]. 
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2.4 误差 分 析 


2.4.1 LU 分 解 的 舍 入 误差 分 析 
关于 LU 分 解 的 舍 入 误差 分 析 , 我 们 有 下 面 的 结果 . 
定理 2.13 BË A cR” 的 所 有 顺序 主子 式 都 不 为 0, 则 带 舍 入 误差 的 LU 分 解 可 表示 为 


A=LU+E, 
HpRA FUR 
|E| < ynlL] - |U]. 


= NE = a 
这 里 4, = T em 表示 机 器 精度 
m 


1l— ne 


证 明 . 见 [21, page 164]. 口 


2.4.2 Gauss 消去 法 的 舍 入 误差 分 析 
引 理 2.5 [21] 设 信和 多 分 别 是 由 向 前 回 代 算 法 2.5 和 向 后 回 代 算 法 2.6 计算 得 到 的 数值 解 , 则 


(L+6L)g=b, [EL| < yn|L 


(U + 8U) =, |U] < YlU]. 


该 引 理 表 明 , 少 和 多 只 有 很 小 的 误差 , 因此 向 前 回 代 算法 2.5 和 向 后 回 代 算法 2.6 都 是 稳定 的 . 于 是 


十 5) 
+ 6L)(U + ôU) â 

LU +L- ôU +ô8L-U+ôL- SU) 
大 = 站 


= (了 
= (了 
= 
= 


WõA=-E+L- SU +L. U 4+ 6L- SU, N) & ERTE (A + 54)z = b Him, H. 


\SA| =| = BAD OU $0L-0 +6L ôU] 
< |E| + |L|-|6U| + |L] - |U| + |ôL| - |U] 
< (39 +72)L| - |U] 


3ne i y 
其 中 Y3n = — 两 边 取 范 数 后 可 得 
~ m 


A|| < 3nem||LI] -IIUl 


对 1- 范 数 , co- 范 数 和 瓦 - 范 数 成 立 (2- 范 数 不 成 立 ). 
根据 算法 向 后 稳定 性 的 定义 , 要 说 明 带 选 主 元 Gauss 消去 法 是 向 后 稳定 的 , 必须 要 求 ||64|| 是 
“小 ” 的, 即 


164|1 = O(€m) |] All. 
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数值 试验 表明 , 部 分 选 主 元 Gauss 消去 法 几乎 总 是 保持 


LI] - Ol = Al 


记 

max; j love 
人 i,j,k G9 
Pn max, lod 
为 部 分 选 主 元 Gauss 消去 法 的 增长 因子 , 其 中 a 是 部 分 选 主 元 Gauss 消去 法 过 程 第 有 步 时 ai, 


定理 2.14 设 人 是 由 部 分 选 主 元 Gauss 法 得 到 的 数值 解 , 则 对 满足 


(A+8A)è =b, lAll < n? YsnpnllAlloo: 


所 以 若 pn 比较 小 或 随 着 交 变 大 时 增长 比较 缓慢 , W n 不 是 很 大 时 , 部 分 选 主 元 Gauss 消去 
法 是 向 后 稳定 的 . 遗憾 的 是 , 理论 上 无 法 保证 pn 比较 小 . 


性 质 2.1 [21, page 166] 部 分 选 主 元 Gauss 消去 法 能 保证 pn < 27-1, 且 这 个 界 是 可 以 达到 的 . 


IS 事实 上 , (2.20) 中 的 界 几乎 总 是 远 远 大 于 真正 的 54|. 


E 在 绝 大 多 数 情况 下 , 部 分 选 主 元 Gauss 消去 法 是 向 后 稳定 的 ,但 也 存在 失败 的 例子 . 


IS 全 主 元 Gauss 消去 法 比 部 分 选 主 元 Gauss 消去 法 更 稳定 . 


2.4.3 ”部 分 选 主 元 Gauss 消去 法 的 舍 入 误差 分 析 
To be continued ... 参见 李 大 明 [49]. 


2.5 解 的 改进 和 条 件数 估计 

MAE A 是 病态 时 , 即使 残 量 > = b 一 4 很 小 , 所 求 得 的 数值 解 $4 仍 可 能 带 有 较 大 的 误差 . 
此 时 需要 通过 一 些 方法 来 提高 解 的 精度 . 
25.1 高 精度 运算 

在 计算 中 , 尽 可 能 采用 高 精度 的 运算 . 比如 , 原始 数据 是 单 精度 的 , 但 在 计算 时 都 采用 双 精 度 
运算 ,或 者 更 高 精度 的 运算 . 但 更 高 精度 的 运算 会 带 来 更 大 的 开销 . 
2.5.2 ”和 矩阵 元 素 缩放 (Scaling) 


如 果 A 的 元 素 在 数量 级 上 相差 很 大 , 则 在 计算 过 程 中 很 可 能 会 出 现 大 数 与 小 数 的 加 减 运算 ， 
这 样 就 可 能 会 引入 更 多 的 舍 入 误差 . 为 了 避免 由 于 这 种 情况 而 导致 的 舍 人 误差 , 我们 可 以 在 求解 
之 前 先 对 矩阵 元 素 进行 缩放 (Scaling), 即 在 矩阵 两 边 同 时 乘 以 两 个 适当 的 对 角 和 矩阵 . 


例 2.5 考虑 线性 方程 组 


一 4000 2000 2000) |zi 400 
2000 0.78125 0 2Z2| = |1.3816 | . 
2000 0 0 T3 1.9273 


用 部 分 选 主 元 Gauss 消去 法 求解 , 计算 过 程 中 保留 8 位 有 效 数字 , 最 后 求 得 的 数值 解 为 


& = [0.00096365, 一 0.698496, 0.90042329]7. 


而 精确 解 为 x = [1.9273..., —0.698496..., 0.9004233...]7. 数值 解 的 第 一 个 分 量 存在 很 大 的 误差 . 
我 们 考虑 对 矩阵 元 素 进 行 缩放 , 即 在 方程 两 边 同 时 乘 以 一 个 对 角 和 矩阵 刀 = diag(0.00005, 1, 1), 
然后 求解 一 个 新 的 方程 组 


DADy = Db. 
最 后 令 j = Dy, 即 可 求 得 比较 精确 的 数值 解 . 
设 6 是 计算 机 浮 点 数 的 基 (一 般 为 2), Pe OT FA EE 


Dı = diag(6 pm)，Da = diag(p, 0b®,...,B™). 


将 原 线性 方程 组 4z =b 转 化 为 等 价 方 程 组 D ADoy = D71b, 即 缩放 后 的 线性 方程 组 . 在 对 方 
程 组 进行 缩放 时 ,需要 O(n?) 运算 量 , 通常 不 会 产生 较 大 的 伟人 误差 


IE 对 角 和 矩阵 D1 是 对 系数 矩阵 进行 缩放 , 而 Do 是 对 未 知 量 进行 缩放 . | 


通过 求解 缩放 后 的 线性 方程 组 ,我 们 可 以 证 明 [16] 


|| Dz" 人 一 ol 
Dz" zll 


N emkoo( DI" ADs), 


其 中 em 是 机 器 精度 . 
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只 为 了 平衡 怎 阵 元 素 的 大 小 ， 一 种 好 的 方案 是 左 乘 一 个 对 角 和 矩阵 D ( 即 对 4 行 缩放 ), 其 中 
DD laijl. 然后 再 执行 部 分 选 主 元 LU 分 解 . 
j=1 


2.5.3 ”迭代 改进 法 


设 近 似 解 &, Beat r = 50 一 Ad. 当 $ 没 达到 精度 要 求 时 , 可 以 考虑 方程 Az = r. 如 果 > 该 方程 
的 精确 解 , 则 


A(é+z2z) = Aĉ + Az = (b—- r)+r =b, 
PAG & + 2 就 是 原 方程 的 精确 解 . 在 实际 计算 中 ,我 们 只 能 得 到 近似 解 名 但 |r 一 AZ|] 会 很 小 , 特别 
地 , 应 该 比 |[r|| 更 小 . 因此 全 十 2 应 该 比 人 更 接近 精确 解 . 
如 果 新 的 近似 解 十 2 还 不 满足 精度 要 求 , 则 可 重复 以 上 过 程 . 
这 就 是 通过 迭代 来 提高 解 的 精度 . 


算法 2.13 通过 和 迭代 改进 解 的 精度 
1 BPA = LU, ê È Ar = 的 近似 解 
2: while 近似 解 公 不 满足 精度 要 求 , do 
3 «Wr =b- Aĉ 

4: 求解 Ly = Pr, Bl y = L-!Pr 

5: 求解 Uz = y, BI z = Uly 

6 

7 


Se=#4+2z 


: end while 


由 于 每 次 迭代 只 需 计算 一 次 残 量 和 求解 两 个 三 角 线 性 方程 组 , 因此 运算 量 为 O(n’). 所 以 相 
对 来 讲 还 是 比较 经 济 的 . 
E 为 了 提高 计算 精度 , 在 计算 残 量 7 时 最 好 使 用 原始 数据 A, 而 不 是 PP LU, 因此 对 A fit LU 
分 解 时 需要 保留 矩阵 A, ANGE BK LA U HS ati 


E 实际 计算 经 验 表明 , 当 4 病态 不 是 很 严重 时 , 即 em Koo (A) < 1, 迭代 法 可 以 有 效 改进 解 的 精 
度 , 最 后 达到 机 器 精度 . 但 em oo (A) > 1 时 ,一 般 没 什么 效果 . 这 里 sm 表示 机 器 精度 . 


2.5.4 FERRER att 


To be continued ... 参见 李 大 明 [49]. 
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26 Rade 


2.1 KA = [aj] ER”, Hay 关 0, 经 过 一 次 Gauss 消去 法 后 得 到 AC) = 7 ~ 


证 明 : (1) Æ A 对称 , 则 Ao 也 对 称 ; (2) 大 A 对 称 正定 , 则 Ao 也 对 称 正定 . 


14 7 
2.2 WME A= |2 5 8|. 计算 4 的 LU 分 解 ,其 中 二 是 单位 下 三 角 阵 , U 是 非 奇 异 上 三 角 
3 6 12 
4 2 4 
2.3 WERE A= |2 37 8 |. 计算 A 的 Cholesky 分 解 . 
4 8 14 
2 —1 0 
2.4 WERE A= |-1 2 al. P: 当 a 取 何 值 时 , 4 存在 Cholesky 分 解 ? 
0 a 2 


2.5 W A e Rm, HH n > m, iE: | AT Allo = || All2. 
4m = n 时 ,证 明 : ko( ATA) = Ko(A)?. 


2.6 设 A= [aiz] epr” 对 称 正定 ， 证 明 : az; < AjjA;; - 
证 明 Cholesky 分 解 ( 即 定理 2.4) 的 唯一 性 . 


i A e Rn 对 称 非 奇异 , 上 且 存 在 分 解 4= LDMT, HP L, M e R” 是 单位 下 三 角 矩 阵 ， 
De R"*” 是 对 角 和 矩阵 . 证 明 : L = M. 


将 A © RO” 写成 分 块 形式 


2 


Ny 


2. 


Oo 


2. 


Ko) 


Ai At 
421 A22 
其 中 An E Rex (1 < k < m) 非 奇异 . 我 们 称 和 矩阵 5 = A 一 Ani AT Aro WAH An 的 
Schur 4} (通常 简称 Schur 补 ). 
(1) 假设 A 存在 LU 分 解 ,证 明 : 对 于 不 选 主 元 的 Gauss 消去 法 , 第 天 步 后 , Ao DKS 
2% 


(2) 假设 A2 = A2, H. Ar All — Ao 都 正定 ,证 明 A 非 奇异 . 
2.10 设 A e BR" 严格 列 对 角 占 优 , 即 


A= 


, 


laal > $ legl: 
i=1,i£j 

证 明 : 
(1) 4 非 奇 异 ; 
(2) 部 分 选 主 元 Gauss 消去 法 与 不 选 主 元 的 Gauss 消去 法 是 一 样 的 , 即 Gauss 消去 法 进行 

步 之 后 ,剩余 的 右 下 角 部 分 仍然 是 严格 列 对 角 占 优 . 
给 定 一 个 非 奇 异 矩 阵 A 和 一 个 向 量 b. 
试 证 明 : 对 充分 小 的 ||54|l2, 存在 非 零 的 54 和 0 使 得 不 等 式 (2.16) 中 的 等 号 成 立 . 


2.1 


= 


思考 题 
2.12 以 1- 范 数 或 co- 范 数 为 例 ,证 明定 理 2.11 中 的 结论 (2). 
2.13 证 明 不 等 式 (2.18) 和 (2.19) 中 的 等 号 是 可 以 达到 的 . 


实践 题 
2.14 根据 算法 2.10, 编写 求解 对 角 占 优 三 对 角 线 性 方程 组 的 追赶 法 程序 . 
函数 形式 : x=LU_tridiag(a,b,c,f) 
其 中 abc 分 别 是 系数 矩阵 的 三 条 对 角 线 , 是 右 端 项 . 
2.15 HEIRE RERI LU 分 解 . Be A d n BPR FE, EEN L< n, FEEN M < n, 编 写 一 个 函 
数 ,计算 A 的 LU 分 解 (不 带 选 主 元 ), 并 统计 运算 量 . 
函数 形式 : [L,U]=LU_banded(A,L,M) 


第 三 章 ”线性 最 小 二 乘 问题 


广义 的 最 小 二 乘 问题 包括 线性 最 小 二 乘 问题 , 总 体 最 小 二 乘 问题 , 等 式 约束 最 小 二 乘 问题 , 刚 
性 加 权 最 小 二 乘 问题 等 等 . 它 在 统计 学 , 最 优化 问题 , 材料 与 结构 力学 , 信号 与 图 像 处 理 等 方面 都 
有 着 广泛 的 应 用 , 是 计算 数学 的 一 个 重要 研究 分 文 , 也 是 一 个 活跃 的 研究 领域 

本 讲 主要 介绍 求解 线性 最 小 二 乘 问题 的 三 种 常用 直接 方法 : 正规 方程 法 (也 称 法 方程 法 ), QR 
分 解法 和 SVD 分 解法 . 一 般 来 说 , 正规 方程 法 是 最 快 的 , 特别 是 当 4 的 条 件数 较 小 时 , 正规 方程 法 
几乎 与 其 他 方法 一 样 精确 . 而 SVD 分 解法 是 最 慢 的 , 但 结果 最 可 靠 . 


9 3-2 
9 3-3 
33 ORI ee 3-5 
3.3.1 ”QR 分 解 的 存在 唯一 性 loueur ccc eee e eee 3-5 
3.3.2 QR 分 解 与 线性 最 小 二 乘 问题 cece eee 3-7 
3.4 ”奇异 值 分 解 .ss， 3-9 
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31 引言 


考虑 线性 最 小 二 乘 问题 
min || Az 一 如 > (3.1) 
ZE 了 7 
其 中 4 e RI, De RR™. 问题 (3.1) 的 解 称 为 最 小 二 乘 解 . 
e 4m=nH Ah 非 奇异 时 ,这 就 是 一 个 线性 方程 组 , 解 为 x = Ath; 
e 当 m > n 时 , 约束 个 数 大 于 未 知 量 个 数 , 此 时 我 们 称 问题 (3.1) WEH (overdetermined); 
。 当 mm <n 时, 未知 量 个 数 大 于 约束 个 数 , 此 时 我 们 称 问题 (3.1) 为 欠 定 (或 亚 定 ) 的 (underde- 
termined). 
在 实际 应 用 中 , 我 们 遇 到 的 多 数 是 超 定 的 , 因此 , 这 里 主要 讨论 超 定 线性 最 小 二 乘 问题 的 求解 . 
更 多 关于 最 小 二 乘 问题 , 可 参考 [6, 51]. 
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3.2 ”正规 方程 


定理 3.1 KAECR™ (m > n). 则 x* ER" 是 线性 最 小 二 乘 问 题 (3.1) 的 解 当 且 仅 当 残 量 
r=b-— Ax* 与 Ran(4) ( 值 域 ) EX, 即 x* 是 下 面 的 正规 方程 的 解 


AT(b— Ar)=0 或 44z=470. (3.2) 


证 明 . 充分 性 : 设 z* 是 正规 方程 3.2) 的 解 . 对 任意 向 量 y € R”, 由 (b 4z*)LRan(4) 可 知 
| Ay — bll? = |I(Aa* — b) + Aly — 2*) |B 
= ||Ax* — blå + Ay - 2*)13 
> 14z — bl. 


因此 , x* 是 线性 最 小 二 乘 问题 (3.1) 的 解 . 
必要 性 : BE o* 是 线性 最 小 二 乘 问题 (3.0 的 解 . 用 反 证 法 , 假定 z 全 47( 一 4z*) 40. 取 
y=x* + az, HEF a > 0, 则 有 


|| Ay — bll2 = || Aa* — b + aAz||3 = ||Aa* — b3 — 2alz||3 + a7 || Az|l3. 


由 于 ||zll > 0, 当 a 充分 小 时 , 有 2l? > al Az||3, 即 上 式 右 端 小 于 |Ar* 一 b2. 这 与 x* 是 最 小 
二 乘 解 相 矛 盾 . 所 以 z= 0, 即 AT (b — 4z*) = 0. 口 


由 定理 3.1 可 知 , 求 线性 最 小 二 乘 问题 (3.1) 的 解 等 价 于 求 正规 方程 (3.2) 的 解 . 由 于 


A™b ERan(47) = Ran(A? A), 
因此 正规 方程 AT Ax = ATb EAHA (consistent) 的 , 即 最 小 二 乘 解 总 是 存在 的 . 当 47 4 非 奇 异 时 ， 
这 个 解 是 唯一 的 . 
定理 3.2 HRACR™"(m>n). MATA 对 称 正定 当 且 仅 当 4 是 列 满 秩 的 , 即 rank(A) =n. 此 
时 , 线性 最 小 二 乘 问题 (3.1) 的 解 是 唯一 的 , 其 表达 式 为 


a = (ATA)! ATD. 


当 A 列 满 秩 时 , 我 们 就 可 以 使 用 Cholesky 分 解 来 求解 正规 方程 , 总 的 运算 量 大 约 为 mn? + 
Bt + O(n), 其 中 大 部 分 的 运算 量 (mn?) 是 用 来 计算 ATA (由 于 ATA 对称 ,因此 只 需 计算 其 下 
三 角 部 分 ). 
最 小 二 乘 解 的 几何 含义 

根据 定理 3.1, 我 们 可 以 把 5 写成 


b= Ar* +r, HP rlRan(A). (3.3) 


所 以 Ax* 就 是 5 在 Ran(4) 上 的 正 交 投影 , 见 图 3.1. 
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3.1 最 小 二 乘 解 的 几何 描述 


IE 最 小 二 乘 解 可 能 并 不 唯一 ,但 分 解 (3.3) 总 是 唯一 的 . 


最 小 二 乘 与 鞍点 问题 
由 定理 3.1 可 知 , 线性 最 小 二 乘 问题 (3.1) 等 价 于 


ATr=0, r=b— Az, 


b 
-全 7 


这 就 是 线性 最 小 二 乘 问题 (3.1) 的 增 广 方程 (augmented system). 事实 上 , 方程 组 (3.4) 是 下 面 方程 
组 的 一 种 特殊 情形 

B Alf] If 
AT 0 z g|” 


其 中 B e 有 "xm 对 称 半 正定 . 这 就 是 通常 所 说 的 鞍点 问题 . 这 个 方程 组 存在 唯一 解 当 且 仅 当 4 列 
TPR HIERE [B, A] 行 满 秩 . 
当 B 对 称 正定 时 ,有 7 = BHF- 4z), 代 入 第 二 个 方程 可 得 


即 


I A 
47 0 


r 


x 


r 


T 


ATB !Az = ATB! f — g. 

这 就 是 广义 的 正规 方程 . 其 所 对 应 的 广义 线性 最 小 二 乘 问题 是 
1 

min 5 |As- fllpatg'a, 


FLARE || |p- 的 定义 是 |zll3-: = a7 Bole, 这 里 妃 是 对 称 正 定 的 . 
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3.3 ”QR 分 解 


QR 分 解 将 一 个 矩阵 分 解 一 个 正 交 和 矩阵 ( 酉 矩阵) 和 一 个 三 角 矩 阵 的 乘积 . QR 分 解 被 广泛 应 
用 于 线性 最 小 二 乘 问题 的 求解 和 和 矩阵 特征 值 的 计算 . 


3.3.1 QR 分 解 的 存在 唯一 性 


定理 3.3 (QR 分 解 ) [22] 设 4 E€ Cmxm (m > n). 则 存在 一 个 单位 列 正 交 甜 阵 Q E€ C (Bp 
Q*Q = nxn) fe -4- LEASE RE Con, 使 得 


A=QR. (3.5) 


若 4 列 满 秩 , MHEA-RAA EH ARMA LE AEH RAF (3.5) ML, 且 此 时 QR 分 解 唯 


WEAR. 1 A = [a1, a2,...,an] E C”. & A DHF, Bl rank(A) = n. Wl] QR AF (3.5) 就 是 对 4 的 
列 向 量 组 进行 Gram-Schmidt 正 交 化 过 程 的 和 矩阵 描述 ( 见 算 法 3.1). 


算法 3.1 Gram-Schmidt Process 


1: ru = |laill2 

2: qı = Qa1/711 

3: for j = 2 to n do 

4: qj = aj 

5: fori = 1 to j — 1 do 
6 ry =a; % č ATAMA 
7 

8 

9 


dj = dj — Nigh 
end for 
rjj = lg;ll2 
10 qj = qj/"jj 
11: end for 


如 果 A 不 是 列 满 秩 ,我 们 可 以 做 类 似 的 正 交 化 过 程 : 
。 如果 a = 0, 则 令 q = 0; 否则 令 qı = ai/llaill2; 
e 对 于 7 = 2,3,...,n, 计 算 4; = 0j—5 1 (qt oj)gi. 如 果 6; = 0, 则 表明 a; 可 以 由 @1,a2,...,aj_1 
线性 表 出 , 令 q = 0. EWS gj = G/IlGlle . 
于 是 我 们 有 


A=QR, 
其 中 Q = [q1, G2, +--+ 5 In] PEZ (但 不 是 单位 列 正 交 ), 其 列 向 量 要 么 是 单位 向 量 , 要 么 就 是 零 向 量 . 
AR R = [riglaxn ELZA, 定义 如 下 


gaj, fori< j 
Tij = 


0, fori >j 


如 果 Q 的 某 一 列 qx = 0, W 有 R 中 对 应 的 第 上 行 就 全 为 0. 


z363 
wWrank(A) = 1 < n, M Q 有 1 个 非 零 列 , A qus dios- Gy. 它们 形成 Cm 中 的 一 个 单位 正 
交 癌 量 组 , 所 以 我 们 可 以 将 其 扩展 成 C™ 中 的 一 组 标准 正 交 基 , 即 
iis fiz- Gi Q, tee , m-l- 


然后 我 们 用 全 PER Q 中 的 第 一 个 零 列 ,用 吧 PER Q 中 的 第 二 个 零 列 , 依 此 类 推 ,将 Q 中 的 所 有 零 
列 都 蔡 换 掉 . 将 最 后 得 到 的 矩阵 记 为 Q, U O e Cor 单位 列 正 交 , AL 


QR=QR. 
这 是 由 于 O 中 的 新 的 列 向 量 正好 与 及 中 的 堆 行 相对 应 . 所 以 我 们 有 OR 分 解 
A=QR. 


下 面 证 明 满 秩 和 矩阵 QR 分 解 的 存在 唯一 性 . 


存在 性 : 由 于 4 列 满 秩 , 由 Gram-Schmidt 正 交 化 过 程 (算法 3.1) 可 知 , 存在 上 三 角 和 矩阵 
R= [rij]jnxn WE rjj > 0, 使 得 4A = QR, HF Q AMANE. 
唯一 性 : 假设 4 存在 QR 分 解 


A = Q1R1 = Q2R2, 
其 中 Q1, Qo € C™*” 单位 列 正 交 , Ri, Ro € C™" 为 具有 正 对 角 元 素 的 上 三 角 和 矩阵 . 则 有 
Qi = Q2 Ro RT. (3.6) 


由 于 Ri, Ro 均 为 上 三 角 和 矩阵 , 所 以 Ro RT! 也 是 上 三 角 和 矩阵 , 且 其 对 角 线 元 素 为 Ro(i,i)/ Ri(i,), 
i=1,2,...,n. 由 (3.6) 可 得 


1= ||Qill2 = |Q2R2RT" 2 = | R2 RT 2. 
所 以 
Roə(i,i) 
Rı(i,i) 
同 理 可 证 Ri(i,i)/Ro(i,i) < 1 所 以 


Ri(i,i) = Ro(i,i), i=1,2,...,n. 
X IQI? = tr(Q7Q1) = n, 所 以 由 (3.6) 可 知 
|R2RT NE = ||Q2ReR7 NE = [Ql =n. 


由 于 RRT 的 对 角 线 元 素 都 是 1, 所 以 RoR) 只 能 是 单位 矩阵 , 即 Ro = Ri. 因此 Qo = ARZ' = 
ARI! = Qi, BI A 的 QR 分 解 是 唯一 的 . 口 


E 有 时 也 将 QR 分 解 定义 为 : 存在 本 矩阵 Q E Cr 使 得 


E Ri 


e1 


其 中 R11 XEZER. 


a 


由 QR 分解 的 存在 性 证 明 过 程 可 知 , 当 4 不 是 满 秩 矩阵 时 , 存在 一 个 置换 矩阵 P, 使 得 AP 的 
前 1 列 是 线性 无 关 的 , 其 中 1 = rank(4). 因此 我 们 可 以 对 AP 进行 QR 分 解 , 于 是 我 们 可 以 得 到 下 
面 的 结论 . 


推论 3.4 3 A c C™ (m > n) 则 存在 一 个 置换 和 矩阵 尸 , 使 得 


Ri1 Rig 
AP = 
Q 0 0 


其 中 Q ECmxn 满足 Q*Q =Inxm Ry E€ C ZHEFRELAABE. 


E 如 果 A EKER, 则 上 面 证 明 中 的 运算 都 可 以 在 实数 下 进行 ,因此 Q AR ABA] ERRER. 


E WR A 是 非 奇 异 的 方 阵 , 则 QR 分 解 也 可 以 用 来 求解 线性 方程 组 Ax = b. 


mS 基于 GS 正 交 化 的 QR 分 解 算法 3.1 的 运算 量 大 约 为 2mm?. 在 后 面 , 我 们 会 介绍 基于 
Household 变换 的 QR 分解 , 在 不 需要 计算 Q 的 情况 下 , 运算 量 大 约 为 2mm? 一 2n3/3; 如 果 
需要 计算 Q, 则 需 另 外 大 约 2mn? - 2n3/3 运算 量 . 


推论 3.5 ( 满 秩 分 解 ) 设 A c C™®” H rank(A) =1< min{m,n}, MAE MRE F e CmX! 和 
GE CX”, 使 得 


A= FG. 


3.3.2 QR 分 解 与 线性 最 小 二 乘 问题 


这 里 假定 4 € RO” (m > n) 是 满 秩 的 . 设 4 的 QR 分 解 为 4 = QR, 我们 用 三 种 不 同 的 方法 
来 推导 线性 最 小 二 乘 问题 的 解 . 


。 将 Q 的 扩充 成 一 个 正 交 和 矩阵 , 记 为 IQ, Â] e R™". 于 是 有 

2 NIT E 

| Av — bl? = [IQ ÂF r- o|) 
AT 2 
= ||; Â (QRz -d| 
Rx — orol 

—Q™b : 

= [Re — Qo + |, 


IV 


2 
2? 


om 
等 号 成 立 当 上 且 仅 当 Re = QT. 所 以 最 小 二 乘 解 为 


p= R-1Q?b. 
。 将 5 写成 5= (QQT +I- QQ*)b, W 


Az — b = Ax — (QQ? + I - QQT)b 
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= (Ax — QQ7) — (I ~ QO). 
HH A= QRP QTQ = 1 AM ATT — QQ?) = AT — RTQTQQT = AT — RTQT = 0 所 以 
(Ax -99m (I — QQT)b = -t7 QQ? (I — QQT)b = 0, 
BY Ar — QQTd 5 (I — QQ™)b IEX. 所 以 


|| Aw — bz = Ax — QQ*I|3 + IIH — QQ )oll 
= ||Rz — "b+ |U — QQ" )oll 
> || — QQ” bll?» 


等 号 成 立 当 上 且 仅 当 Re = Qb. 所 以 最 小 二 乘 解 为 


oe = R Q". 


T 事实 上 , Q 的 列 向 量 组 成 Ran(4) 的 一 组 标准 正 交 基 , 因此 QQ 是 Ran(A) 上 的 正 交 
REAT, A. 
QQTb = QR(R-1Q"d) = QRa* = Az*, 


即 Ar* 是 b 在 Ran(A) 上 的 正 交 投 影 . 
。 解 正规 方程 . 由 定理 3.1 可 知 , 最 小 二 乘 解 为 


r* = (AT A)! ATb 
= (RTQTQR)!RTQTb 
=: (RR) RQ 
= R-'Q"b. 


E 用 QR 分 解 来 求 最 小 二 乘 解 的 运算 量 大 约 为 2mn? (如 果 采 用 Householder 变换 的 话 , 运算 
量 大 约 为 2mn? — 3n3). 4m > n 时, 大约 为 正规 方程 的 两 倍 . 4m = n 时 , 几乎 相同 . 通 
常 QR 算法 比较 稳定 , 特别 是 当 4 条 件数 较 大 (病态 ) 时 . 
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3.4 奇异 值 分 解 


奇异 值 分 解 (SVD) 分 解 是 矩阵 计算 中 非常 有 用 的 工具 之 一 . 
I A e Cn (m > n), IJ A*A c C>» F AA* ecCmxm FEE Hermite 4 IF EME, HEME 
有 相同 的 非 零 特 征 值 (都 是 正 实数 ). 


定理 3.6 (SVD) [16] 7% A € C™*”" (m > n), NAE BEE U ECmxm 和 VV ECnxn 使 得 


>» * 
Vv’, 
0 


xy 
U* AV = 或 A=U 


其 中 了 = diag(o1,02,...,0n) E€ R”*”, Ho, > oo >... > On > 0. 


证 明 . 首先 假设 A A 0, 否则 只 需 令 D = 0 即 可 ,UV 和 VV 可 以 是 任意 西 矩 阵 . 
下 面 我 们 对 m 和 n 用 归纳 法 来 证 明 . 
当 n ==1 和 mm > nit, RIR E = |All V = 1, U eC™xm 是 第 一 列 为 ul = A/|| Allo WE 


矩阵, 于 是 


xu 


A=U y* 


即 为 A 的 奇异 值 分 解 . 
(Bese COPD (1) 中 的 矩阵 都 存在 奇异 值 分 解 , 下面 证 明 A © Cn 也 存在 有 奇异 值 分 解 . 
Hi ||All2 = max, | Azll>, 所 以 存在 向 量 ve C WE lloll = 1 使 得 All2 = || Avlle. S 


lizll2= 


1 
u=-AveC™, F} o= |All, 


W jula = 1. 我 们 将 v A u P REER, 即 存在 UV c cmd AV e ced, 使 得 
[u, Ü] € Cmxm Al [v, V] ECnxn 都 是 西 矩阵 . 所 以 


U* Av = U*(ou) =0, wAv=w (ou) =o. 


o wAV 
0 U*AV 


u* Av u* AV 
U*Av U*AV 


= lAl2 = [fA], = |Æ], 2 [Eel = [lea], = Vo? ravi, 
所 以 ||u* AV lo = 0, Bl u* AV = 0. FE 
[uo] A lv, 7] = 


其 中 Ay = U*AV e Cm-Dx(w- 了 .由 归纳 假设 可 知 , Ay 存在 奇异 值 分 解 , 设 为 


Xi 


4= 必 可 4[v,0| = 


oc 0 
0 Ay 


ki 


A =U, VĚ, 


. 3-10 . 


其 中 四 EC-Dxen 0) 和 WE CW-Dxw-D) BR Be FEE, D e RODO- Xt Ay PERE, AE 
对 角 线 元 素 按 降序 排列 . 令 


v= | 可 


WJ U esCmxm 和 Ve CX” 都 是 西 和 矩阵 , H. 


1 0 
0 Ui 


. Y= lv. 7] 


1 0 7+ 1 0 
U*AV = [可 A fv, 7 
0 Uy 0 VY 
h offe offi o 
ol lo allo VY 
0 X 
=|" = (3.8) 
0 U*A,V, 0 
aaj 9 
0 X 


2 
* > o? 0 
o? = ||Al] = |U aviè = B (| 中 ; 
所 以 o 不 小 于 E 中 的 所 有 对 角 线 元 素 , 即 E 的 对 角 线 元 素 也 是 按 降 序 排列 . 因此 , (3.8) 这 就 是 4 
的 奇异 值 分 解 . 
由 归纳 法 可 知 , 定理 的 结论 成 立 . 口 


OS 该 定理 也 可 以 通过 Hermite 半 正定 矩阵 的 特征 值 分 解 来 证 明 ， | 


定义 3.1 分 解 (3.7) RA 4 的 奇异 值 分 解 (SVD ), o1,02,...,on RA 4 的 奇异 值 , 它们 是 矩阵 


A*A 的 特征 值 的 平方 根 . 


E 我 们 注意 到 , 奇异 值 都 是 非 负 实数 , 因此 对 角 和 矩阵 AES. 在 不 做 特别 说 明 的 情况 下 ， 
我 们 总 是 假定 o1 > 02 >- > On 2O. 


CE 如 果 A RO ASCE, JU U, V 也 都 可 以 是 实 矩阵 [22]. | 


由 定理 3.6 FY 
rank(A) = rank(X). 


4 rank(A) =r <n, WA 


V*, Dy =diag(o1,09,...,0-) E€ BR". 


特别 地 , 如 果 rank(A) = n, 则 奇异 值 都 是 正 的 , UCI FARES D IR Ape. 
ZERE U = [ua um 和 = [ov on] 的 列 向 量 分 别称 为 4 的 左 奇异 向 量 和 右 奇 
异 向 量 , 即 存 在 关系 式 


Avi = ciui, i= 1,2,...,n, 
A* uj = OiVUi， i= L2 erg, 


A*u; =0, i=n+1,n4+2,...,m. 


由 定理 3.6 可 知 
>» * * * * 2 x 
A=U V* = uv] 十 aoW2V2 十 … F OnUnv, = > OiUiV; . 
0 i=1 
W Un = ju, ua2,---, Un] € C™*”, W] Un EFA ESERE (BY UXUn = Inxn), E 
A=U,>dV%. (3.9) 


这 就 是 所 谓 的 细 SVD (thin SVD ) [16] 或 降 阶 SVD (reduced SVD ) [39], 有 的 文献 将 (3.9) 称 为 奇 
异 值 分 解 . 
设 < n, KANT 
k 
Ag = 01U1U] + Ozu) +--+ 十 OjpUkVE = Tiu; 
q=] 


为 4 的 截断 SVD (truncated SVD ). 


3.4.1 “奇异 值 分 解 的 性 质 
下 面 是 关于 奇异 值 的 一 些 基 本 性 质 : 
定理 3.7 设 A=U[D7,0]7V* Æ% A cC (m > n) 的 奇异 值 分 解 , 则 下 面 结 论 成 立 : 
(1) #m=n HAZ Hermite th. RA = UAU* 是 4 的 特征 值 分 解 , 即 U*U = IA = 
diag(A1,A2,...,An), HEF [àil > [Ao] > °° > lAn), W A= UEV 是 A 和 4 的 奇异 值 分 解 ,其 中 
gi = | 和 il, vi = sign (Apup Æ AY = 0, WIR sign(A;) = 1; 
(2) A*A 的 特征 值 是 o2, 对 应 的 特征 向 量 是 vi,i 二 1,2,...,n; 
(3) AA* 的 特征 值 是 o2 和 m 一 n 个 替 , 对 应 的 特征 向 量 是 wi,i 二 1,2,...,m; 
0 <A* 


(4) È m= n, NER H = 的 特征 值 是 to, 对 应 的 单位 特征 向 量 为 工 
4 0 万 


Ui 


(5) Allo = ou Alle = Vaz rope Fo; 

(6) #m=n LE ASH, M |A] = 071, ka( A) = o1/on; 
(7) Æ m =n, Rl | det(A)| = 0102- -0n ; 

(8) Æ rank(A) =r <n, I 


Ran(A) = span{u1, ug,...,Ur}, Ker(A) = span{Ur+1, ur+2 .Un 


(9) & x € C A |/z|/2 = 1, M on < ||Azllo < 01; 
(10) oil AT) = cil A*) = oi(A); 


(11) (ERR) RX c COM fo Y € C% 2 HE, N oi(X*47) = ol A). 


证 明 . 这 些 性 质 的 证 明 都 比较 简单 ,请 自己 验证 . 口 


下 面 是 关于 矩阵 4 的 一 个 低 秩 逼 近 . 


k 
定理 3.8 HA=U,UV* HACC km ARHED. 令 Ak = 5 OjUid; » 则 Ak 是 
1=1 


|| A — Bl 


min 
BeC™*”, rank(B)=k 


的 一 个 解 , 且 


|| A 一 Agllo = Ok+1- 


此 时 , 我 们 称 Ak 是 4 ha — ATR k 逼近 . 


WEAR. i Be C™*” H rank(B) = k, WI) 
dim(Ker(B)) + dim(span{V,41}) = (n-—k)+(k4+1) =n4+1>n, 


其 中 Vier = [ov ok E€ C™™**. 所 以 Ker(B) 与 span{Vp41} AAES AHA. SOE 
Ker(B) N span{ Vp}, 不 失 一 般 性 , 我 们 假设 lelo = 1. 故 存在 y © CH 满足 ||lyl|。= 1 使 得 
£ = Vesiy. 于 是 


|A- B|? > ||(A— B)z||3 = || Aa] 一 人 YY 人 + 


A 2 Shy 2 k+l 

+ 1 

-eE = -Ezta 
2 2 i=1 


其 中 21 = diag(o1,02,...,0k41). 这 里 我 们 利用 了 性 质 St y? = |ly|[2 = 1. PFA 


min |A — Bllo > ons. 
BeC™*”, rank(B)=k 


X rank(A;) = k, H. 


| A — Axll2 = 


5 


n 
> oiuiv?|| = 


i=k+1 


Ok+1 
5 + 


m 


所 以 


| a = OK 二 1， 
2 
min |A- Bl2 = ona, 
BeC™*”, rank(B)=k 


AL Ax 是 问题 (3.10) 的 一 个 解 . 口 


| IS 对 于 Frobenius 范 数 , 我 们 有 类 似 的 结论 , 见习 题 3.5. | 


如 果 rank(4) =k < n, Wo, = 0,i = k + 1,k +2,..., n, 所 以 
k 
A= ` aiuiU; = Ag. (3.11) 
i=1 


定理 3.9 (Weyl) [36, page 67] 设 A, B € C™”" (m > n), Hrank(B) = k. WA 


max Az||o > 0 A 
zeEKer(B), | l2 > ok+1(A,), 


i A < on-kl A). 
zeKer(B) ala=1 | zl 全 r ) 


oil A — B) > ok41(4), Onl A+ B) < on-k(A) 


Og A) < oi(B)+o;(A—B), i=1,2,...,n, j =1,2,...,n—i+1. 


WEAR. 不 等 式 (3.12) HHA LAN: it L Æ C 中 的 任意 一 个 n 一 k 维 子 空间 , 则 有 


| Aa|l2 > on4(A). 


max 
EL, ||x||/2=1 
该 不 等 式 的 证 明 与 定理 3.8 的 证 明 类 似 . 
下 面 证 明 结 论 (3.13). 令 Viet = [ünk nt; ppo , Un] = Crx (k+), 类 似 地 ， 存在 向 量 YE 
CEH 满足 |lyllo = 1, 使 得 £ = piy € Ker(B). 于 是 


2 2 k+l 
0 0 
Aol = [UEV Veny? = z|, y| = p E = J oent? < on 
k+1 J k+1 2 i 


HP Sky = diag(On—k, On-k+1; an) 所 以 


min Az|lo < on- (A). 
rEeKer(B), | l2 < cr 


不 等 式 (3.14) 可 由 (3.12), (3.13) 以 及 定理 3.7 中 的 性 质 9 得 到 . 
下 面 证 明 不 等 式 (3.15). 首先 证 明 i = j = 1 时 结论 成 立 . 事实 上 ,我 们 有 


o1(A) = ||All2 = ||B + (A — B)ll2 < ||Bll2 + || A — Bll2 = o1(B) + o1(A — B). 
S C = A — B, Fit B;_1 M Cj-1 WHE BAC HJER i — 1 ARK j — 1 ar. 则 
o1(B — Bi) = ||B — Bi-alla =oi(B), a1 (C — C1) = ||C — Ci-ille = 0;(C). 


所 以 


oi(B) + oi(C) =0o1(B— Bi_1)+o1(C Cana) 


= ||B — By-all2 + |C -Cr-ll> 
> ||A — Bi — Cj-1l2 
=01(A— Bi 1 一 Ci1). 

X rank(Bi-1 + Cj-1) < i + j — 2, PRAHA REI (3.14) 可 知 


oi(B)+o;(C)= o (A — Bi-1 — Cj-1) 2 ong A), 


根据 定理 3.9, 我 们 可 以 得 到 和 矩阵 奇异 值 的 最 小 最 大 定理 . 


定理 3.10 Ho, > o>- > on > 0 Æ A c Cx (m > n) 的 奇异 值 , 则 


okl A) = min 


= ax ||Azlz, k=1,2,...,n 
dim(£)= 


m 
n—k+1 zEL, ||z||2=1 


和 


max min 
dim(L)=k ZEC, ||z||2=1 


HP LARC" 的 一 个 子 空间 . 


4zllz， k=1,2,...,n, 


证 明 . 见习 题 3.3. (也 可 以 利用 Hermite 和 矩阵 的 特征 值 的 最 小 最 大 定理 ) 口 


引 理 3.1 (交错 不 等 式 ) [23, page 149] 设 A c Cmxm, A, 是 由 4 去 除 7> 列 (或 了 行 ) SHSM FH 
阵 , 则 


cil A) > coi(4) > 047(A), i=1,2,...,min{m,n}. 


这 里 , 当下 标尺 大 于 矩阵 的 维 数 时 , 我 们 令 op = 0. 
更 进一步 , 如果 Be Cm-7)x(n-s) 是 A FH, Ml 


oi(A) > 0i(B) = oitrts(A). 


WEAR. RUER r = 1 的 情形 , 其 余 情 形 可 以 通过 递 推 实现 . 
假设 A, 是 由 4 中 去 除 第 天 列 后 的 子 和 矩阵 . S ep © C 表示 k-th 标准 单位 向 量 , 即 第 大 个 元 
素 是 1, 其 它 均 为 0. 由 定理 3.10 可 知 


ok(4) = min max 
dim(£L)=n—k+1 xzéEL, ||z||2=1 


Fr x Lez, Wl) x, = 0, 所 以 


lAzl2 > ， |4zl 
d 


min max 
im(L)=n—k+1 ZEC, ||zll2=1, cle, 


At = Aif, 
其 中 T 三 [ZTZL Ln] E cr-!, 故 条 件 “g € L, \|x\|2 = 1, xrleg 就 等 价 于 
e L, lžll = 二 其 中 Lc C"*-1 是 由 L 中 所 有 向 量 去 除 第 的 分 量 后 组 成 的 集合 . 因此 


dim(£) =n 一 k 十 1 或 dim(£)=dim(£)-1=n 一 k. 又 


min max |Aizll2 > min max = ||A,Zllo, 
dim(£)=n—k+1 SEZ, il2=1 dim(£)=n—k ze£, ill2=1 


H. A e C™x(-)), 所 以 


A)= i A 
Aa o eas ge eg Oe 


> min max || Az||2 
dim(L)=n—k+1 ZEC, ||z||2=1,cLe, 


= _ min max || A1z||2 
dim(£)=(n-1)—k+1 EL, ||Z||2=1 


= ak(41). 


同 理 可 得 


0n41(A) = max min = ||/Az|lo 
dim(£L)=k+1 ZEC, ||æ||2=1 
|4zll 


人 
B 
© 


< X min 
dim(£)=k+1 ZEC, ||z||o=1,cLe, 


= max min ||A,#|l2 
dim(Ĉ)=k #€L, ||#/2=1 


= ok(A1). 


我 们 注意 到 , 在 前 面 的 证 明 中 , 并 没有 要 求 m > n. 因此 对 于 mm < n 的 情形 ,上面 的 结论 仍然 
成 立 . 

如 果 Ay 是 由 A 中 去 除 第 k 行 后 的 子 和 矩阵 . 由 于 A 与 4 具有 相同 的 奇异 值 , 因此 只 需 将 上 面 
的 讨论 运用 到 4* 上 即 可 . 


口 


引 理 3.2 [23, page 170] 设 4 € Cnxm 1T < k < n, MAHER Bes ERE Up E€ CXE 和 
Vy € Cnxk 有 


oi(Ur AVp) < oi(A), 1 一 152; ee’ Ke (3.16) 


Al sh, 
| det(U;, AV;)| < oil A)o2(A)-- -okl A). (3.17) 


证 明 . 我 们 将 Ur 和 Ve BBI FEM EE U c C™™ 和 e Cor, 则 UF AV, 是 U*AV 的 子 和 矩阵 . 
由 引 理 3.1 可 知 ， 
又 U*AV 与 4 有 相同 的 奇异 值 , 故 结论 (3.16) 成 立 . 

利用 定理 3.7 中 的 性 质 7, 即 可 得 到 不 等 式 (3.17). Q 


定理 3.11 (Weyl 不 等 式 , 1949) [23, page 171] HA € C?xm, 其 奇异 值 和 特征 值 分 别 为 cl > o > 
… 人 om 之 0 和 |Ail > [Aa] = --- > JAn]. A 


JA1à2 + Akl < 0102:00 


且 当 上 二 nn 时 ,等 号 成 立 . 


EAA. i A = URU* 是 A W Schur Sfi, Hop U e Cor 是 酉 矩阵 , Re Cn"x 是 上 三 角 和 矩阵 , 且 其 
对 角 线 元 素 依次 为 Ar, Àz,- An. BRU WINT k PUA RAS AF TE Up, W Ri 全 UZ AU, X 


U*AU = R 5 k WIFE TERE, 即 Ri 也 是 上 三 角 和 矩阵 , 且 其 对 角 线 元 素 依次 为 Nt, Az- Ak 


所 以 由 引 理 3.2 可 得 


| 和 Al 和 Na -- Akl = | det (Rx)| = | det(UZz AU% )| < 0102: Op. 


Shani, 


|\1A2°**An| = | det(A)| = 0102+- on. 


下 面 的 定理 是 关于 奇异 值 的 一 个 扰动 性 质 . 
定理 3.12 [36, page 69] 设 A, E € Cm™X7 (m > n). I 


|oi(A + E) — oi(4)| < ||Ell2 


证 明 . 直接 利用 不 等 式 (3.15) 即 可 , 留 作 习题 3.4. 
下 面 是 定理 3.12 的 一 个 推论 ,也 是 SVD 的 一 个 应 用 . 
推论 3.13 R A e Cn, | | 是 任意 一 个 相 容 矩阵 范 数 , 则 对 任意 的 = > 0, 总 存在 一 个 矩阵 Ae 


使 得 上 4 一 All < es 其 中 4。 具有 互 不 相同 的 特征 值 . 


由 推论 3.13 可 知 , 可 对 角 化 矩阵 在 所 有 和 矩阵 组 成 的 集合 中 是 稠密 的 . 


3.4.2 ”奇异 值 分 解 与 线性 最 小 二 乘 问题 


E 
it A € R™™*” 列 满 秩 , 4 = U j 


Ax — 03 = 


= 


2 


X 
U VTzr—b 
0 


2 
> 2 
f VT gz — [Un, Ub 


2 
2 
2VTz — Uib 
TT 
—UT i 
BV ax — Uabl2 + Ü” oll2 
Ü" |, 


等 号 当 目 仅 当 2VTz — DZ = 0 时 成 立 , 即 
x = (VT) Ub = Vy UL. 


这 就 是 线性 最 小 二 乘 问题 (3.1) 的 解 . 


V* 是 4 的 奇异 值 分 解 . 令 Un H U 的 前 n 列 组 成 的 矩阵 


35 ”最 小 二 乘 扰动 分 析 


定理 3.14 设 4eRmxn (m > n) Hrank(A) =n. 设 z 是 线性 最 小 二 乘 问 题 (3.1) OM, TAM 
4M, ||(A + 5A)% — (b + 6d) ||o, 则 


Iž- el < fee) 


+ «3(A) tan a} LOE), 


læll2 cos 0 


其 中 (A) = 01(A)/on(A), 0A b5 Ar ZAMAA (或 2 与 Ran(4) HAA), 
«© max { ele, 1a) 
lAll2 ` Illl J’ 


ÄRE £- ko(A) < 1 (确保 A+ OA AK, Ata 2 EA). 


我 们 记 ta 
A shal“) 2 
= + £2(A) tan 6, 
这 就 是 最 小 二 乘 问题 的 条 件数 . 当 0 = 0 时 ,5 e Ran(A), 此 时 krs = 2K2(A); 当 
bLRan(A), 此 时 最 小 二 乘 解 为 x =0, 而 KLS = OOj 当 0 <0 < m/2 时 ， KLS = O(«3(A)). 


ENIRE r = b — Ax, f = (b + ôb) — (A+ 6A)%, RATA PAY PER [21] 


D 
| 
3 

Sa 
N 
m 
sF 


Ff = rlle 
IIrll2 


当 我 们 使 用 QR 分 解 或 SVD 分 解 求解 最 小 二 乘 问题 时 , 由 于 采用 的 是 正 交 变换 , 它们 都 是 数 
值 稳定 的 . 而 正规 方程 涉及 求解 方程 组 AT Ar = 47 其 精度 依赖 于 条 件数 sz(474) = 63(A), 其 
误差 总 是 以 65 (A) 倍数 增长 . 因此 当 4 的 条 件数 较 大 时 , 正规 方程 就 会 不 太 精 确 . 


<1+2e. K2(A). 


3.6 初等 变换 和 矩阵 


和 矩阵 计算 的 一 个 基本 思想 就 是 把 较 复 杂 的 问题 转化 为 等 价 的 较 简 单 的 , 易于 求解 问题 . 而 完 
成 这 个 转化 的 基本 工具 就 是 初等 变换 矩阵 , 其 中 使 用 较 多 的 有 三 种 : Gauss 变换 , Householder 变换 
和 Givens BH. 


3.6.1 “初等 矩阵 
我 们 考虑 初等 矩阵 


E(u,v,7T) = I — Tuv’, 


HP u,v € C 是非 零 向 量 ,7 是 一 个 非 零 复数 . 事实 上 , E(u, v, 7) 是 单位 矩阵 的 一 个 秩 1 扰动 . 
定理 3.15 7K Elu, v, T) 是 一 个 初等 矩阵 , BNA 

(1) det(E(u,v,7)) = 1 — rv*u; 

(2) #1- rv*u £0, M E(u, v, T) ETH, A 


T 


(E(u, v,7)) = E(u, v,7); 其 中 YS" a 


TVU*2 一 工 


WEAR. (1) 易 知 
I 0| 7 一 Tu -ru I 0 加 了 —TU 
v* 1 0 1 iv 1|) J0 L—7otul 
由 行列 式 的 乘法 可 知 
| 
0 1 一 0 1l—Tv*u 
所 以 


det (E(u, v,7)) = det(I — ruv*) = 1—rv*u. 


(2) Æ 1 — rv*u Æ 0, Wl det (E(u, v, 7)) # 0, 所 以 E(u, v, 7) 非 奇 异 . 通过 直接 计算 可 知 


E(u,v,7T)E(u,v,y) = I — Tu — q(1 TV) 


=] — rw (1 — rv*u)uv* 


定理 3.16 设 4eCn"xm, 则 4 非 奇 异 当 且 仅 当 4 可 以 分 解 成 若干 个 初等 矩阵 的 乘积 . 


3.6.2 Gauss 变换 


Be lj = (0,...,0,lj41,js- cola of = 1,2,...,n, 则 Gauss 变换 定义 为 


向 量 Lj PRA Gauss 向 量 [16]. 由 定理 3.15 可 知 
det(L(lj)) =1, (L4)? = E(lj, ej, 1) = E(-lj, ej, -1) = L(-ly). 
Gauss 变换 主要 用 于 矩阵 的 LU 分 解 . 
3.6.3 Householder 变换 
定义 3.2 RIRH E 


vv, OAVEC", (3.18) 


2 
=< yÜ 
loll 


A Householder 和 矩阵 (或 Householder 变换 , 或 Householder 反射 ) = v #8 A Householder WS. 
我 们 通常 将 矩阵 (3.18) A H(v). 


从 几何 上 看 ,一 个 Householder 变换 就 是 一 个 关于 超 平面 span{v}-+ 的 反射 . 对 任意 一 个 向 量 
xr E C, 可 将 其 写 为 


* 


UX A 
0 一 v+ty=avu+y, 
v*V 
其 中 av € span{v}, y € span{v} +. Il] 
Ax =2-——-——vw't&=x-2av=—avt+y, 
u*v 


即 Hz 与 < 在 span{v}+ 方向 有 着 相同 的 分 量 ,而 在 "方向 的 分 量 正好 相差 一 个 符号 . 也 就 是 说 
Hz 是 x 关于 超 平面 span{v}+ 的 镜面 反射 , 见 图 3.2. 因此 , Householder 矩阵 也 称 为 反射 矩阵 . 


3.2 Householder 变换 的 几何 意义 


. 3-20 . 


下 面 是 关于 Householder 矩阵 的 几 个 基本 性 质 . 
定理 3.17 i H e C™™”" 是 一 个 Householder 矩阵 , 则 
(1) H* = H, 8p H Hermite 4; 
(2) H*H =I, BPH XB; 


(3) H2? =I, yA H-t =H; 
(4) det(H) = 一 1 
(5) H AANER IFA: 入 = 二 1 和 入 二 一 1, 其 中 入 二 1 的 代数 重 数 为 nn 一 1. 


Householder 矩阵 的 一 个 非常 重要 的 应 用 就 是 可 以 将 一 个 向 量 除 第 一 个 元 素 以 外 的 所 有 元 素 
都 化 为 零 . 我 们 首先 给 出 一 个 引 理 . 


引 理 3.3 设 x,y ECn" 为 任意 两 个 互 异 的 向 量 , 则 存在 一 个 Householder 2% H 1844 y = Hz 的 


充 要 条 件 是 ||zllz = yll> 且 z*y € R. 


WERA. Æ lell = Iyl E. z*y € R, W y*y = x*x 且 z*y = y*x. 于 是 
læ- yll? = (æ - y)“ (z — y) = ate — y*z — s*y + y“y = 2(e*a — y“). 
$ v=- y, ME 


AC Ck _ 2a y)(e*e — ye) 
ie ie- orn yay T” 


即 存在 Householder 42/4 H(v) 使 得 y = H(v)2. 
反之 , 如 果 存 在 Householder # H (49 y = Ha, hF H Æ Hermite 的 ,所 以 z*y = x“ Ha € 


R. 又 因为 AE PEM, 所 以 Jyll = || Hallo = ||zllo. 口 
由 引 理 3.3, 我 们 可 以 立即 得 到 下 面 的 定理 . 


定理 3.18 Hx = [x1,22,...,2n]7 E€ R -n ERAR, 则 存在 Householder 矩阵 万 使 得 


Hz = ael 其 中 a= xjlz (Aa = —||z|l2), e1 = [1,0,...,0]7 € R”. 


Wa = [zzo Ln] E R” 是 一 个 实 的 非 零 向 量 ,下 面 讨论 如 何 计算 其 对 应 的 Householder 
mÆ. 根据 引 理 3.3, H 所 对 应 的 Householder 向 量 为 
v = z — Qae = |z; — a, To). En]. 


在 实际 计算 中 , 为 了 尽 可 能 地 减少 舍 人 误差 , 我 们 通常 避免 两 个 相近 的 数 做 减 运算 , 否则 就 会 损失 
有 效 数字 . 因此 , 我 通常 取 


a = — sign(21) .|| zll2. 


事实 上 , 我 们 也 可 以 取 a = sign(zijllzll2, (AAT A Sb AiR, 我 们 可 以 通过 下 面 的 公式 来 
计算 wv 的 第 一 个 分 量 v 
xt — |x| _ —(@3+25+--- +25) 


a =sign(x1)||z\|2, vı =21-a= dta zı +a 


-3-21- 


无 论 怎样 选取 a, 我们 都 有 H = I — pov" 其 中 
8 一 一- 一. 


v*u QUI 


在 实数 域 中 计算 Householder p v 的 算法 如 下 , 总 运算 量 大 约 为 3n. 


算法 3.2 计算 Householder 向 量 


% Given x € R”, compute v € R” such that Hx = ||x||2e1, where H = I — Bvv* 
1: function |, v] = house(z) 


2: n = length(x) (here length(zx) denotes the dimension of x) 
3: o =r +r + t? 
4 V=T 

5 if o = 0 then 

6: B=0 

7 if xı < 0 then 

8 V1 = —T1 

9 end if 

10: else 

11: V=2 

12: H= ct +o 

13: if x; < 0 then 

14: v =z- H 

15: else 

16: vı = —o/ (xı + u) 
17: end if 

18 = 8 = 2/(v? +0) 

19: end if 


OS 在 实际 计算 时 , 我 们 可 以 将 向 量 v 单位 化 , 使 得 = 1. 这 样 ,我 们 就 无 需 为 v 另外 分 配 
空间 , 而 是 将 v(2 : n) 存放 在 xz(2:n) 中 , 因为 经 过 Householder 变换 后 , m E x 除 第 一 个 
分 量 外 , 其 它 都 为 零 . 同时 , 为 了 避免 可 能 产生 的 溢出 , 我 们 也 可 以 事先 将 xz 单位 化 , 即 令 


x = z/||x|]2 


可 以 证 明 , 上 述 算法 具有 很 好 的 数值 稳定 性 , 即 [43] 


|F -Hl = O(Em), 


是 由 上 述 算法 计算 得 到 的 数值 解 , sm 是 机 器 精度 . 
AER™®”, H = I Pvv € R™, 则 


HA = (TI—Bvvw)A=A— Pv A = A — Pv(Av). 


因此 , 在 做 Householder 变换 时 , 并 不 需要 生成 Householder 矩阵 , 只 需要 Householder 向 量 即 可 . 上 
面 和 矩阵 相 乘 的 总 运算 量 大 约 为 Amn. 
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3.6.4 Givens 变换 
为 简单 起 见 , 我 们 这 里 这 讨论 实数 域 中 的 Givens 变换 . 设 9 € [0, 27], 我 们 称 矩 阵 


| 


| é R”*” 


1 

为 Givens 变换 (或 Givens 旋转 , 或 Givens 46 FF), 其 中 c = cos(0), s = sin(0). 即将 单位 和 矩阵 的 (i, i) 
和 (j, 7) 位置 上 的 元 素 用 c 人 代替, 而 (i,7) 和 (j, 引 位 置 上 的 元 素 分 别 用 s 和 一 s FORE, 所 得 到 的 拢 
阵 就 是 G( j, 8). 


C S 


=S C 


四 
G(i, 5,0) = 
| 


定理 3.19 G(i,j,0) EXER, A det(G(i, j,0)) = 1. 


我 们 需要 注意 的 是 , 当 一 个 矩阵 左 乘 一 个 Givens 矩阵 时 , 只 会 影响 其 第 i 行 和 第 j 行 的 元 素 . 
而 当 一 个 矩阵 右 乘 一 个 Givens 矩阵 时 , 只 会 影响 其 第 i 和 第 7 列 的 元 素 . 


例 3.1 ir = 71 c R?, 则 存在 一 个 Givens 变换 G = ana c RX? 使 得 Ga = 


"| Jp 
0 


T2 
cs 和 7 的 值 如 下 : 
e Ax =r: =—0,0)c=1,s=0,r=0; 
© Æ xı = 01E z2 £ 0, WJ c = 0, s = 20/|z0|, r = |x| ; 
e Æ xı 4018 z£ = 0, MJ c = sign(z1), s = 0, r = |x|; 
e Ar, #0 H zr #0, W] e= z1/r,s = z2/r,r = fa? + 22. 
也 就 是 说 ,通过 Givens 变换 , 我 们 可 以 将 向 量 x E R? 的 第 二 个 分 量化 为 0. 
FXE, 对 于 任意 一 个 向 量 x € RR”, 我们 都 可 以 通过 Givens 变换 将 其 任意 一 个 位 置 上 的 分 量 
化 为 0. 更 进一步 ,我 们 也 可 以 通过 若干 个 Givens 变换 ,将 x 中 除 第 一 个 分 量 外 的 所 有 元 素 都 化 为 
0. 


算法 3.3 Givens 变换 


% Given x = fa, b] € R?, compute c and s such that Ga = [r,0]” where r = ||zx||» 


1: function [c, s] = givens(a, b) 
2: if b = 0 then 

3: if a > 0 then 

4 c=1, s=0 

5 else 

6 c=-l, s=0 
7: end if 
8: else 

9 if |b| > |a| then 


. 3-23 . 


Q sign(b) 
: T=; = y C=SF 
b Vili+72 
11: else . 
b sign(a) 
: T=-, C= s SST 
a V1 十 T2 
13: end if 
14: end if 


3.6.5“” 正 交 和 矩阵 舍 入 误差 分 析 


引 理 3.4 & P c Ro” 是 一 个 精确 的 Householder 或 Givens 变换 , 已 是 其 浮 点 运算 近似 , 则 


fl(P4) = P(A + E), fI(AP) = (A + F)P, 


其 中 Bll2 = O(Em) - ||Alla El = O(Em) I|All2- 


这 说 明 对 一 个 和 矩阵 做 Householder 变换 或 Givens 变换 是 向 后 稳定 的 . 
定理 3.20 考虑 对 矩阵 A 做 一 系列 的 正 交 变 换 , 则 有 


E(P,- PAQ «++ Qe) = Pees P(A+ E)Qi -+ Qh, 


EYP |El = O(Em)- (k| Alla). 这 说 明 整 个 计算 过 程 是 向 后 稳定 的 . 


一 般 地 , 假设 X 是 一 个 非 奇 异 的 线性 变换 , X 是 其 浮 点 运算 近似 . 当 X 作用 到 4 上 时 , 我们 


有 
fl(XA) = XA+E=X(A+X7!E)2X(A+F), 


H ||Ell2 = O(Em) + ||XAll2 < O(em) + || X lla - Alla, 4 
IFl2 = |X Elz < Olem) :|X 2° |X lz Alle = O (€m) : k2(X) - |All, 


因此 , 舍 入 误差 将 被 放大 2 (X) 倍 . 当头 是 正 交 变换 时 , kz(X) 达到 最 小 值 1 这 就 是 为 什么 在 浮 
点 运算 中 尽量 使 用 正 交 变换 的 原因 . 
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3.7 QR 分 解 的 实现 

这 里 我 们 给 出 QR 分解 的 具体 实现 方法 . 下 面 我 们 分 别 介 绍 基 于 MGS 过 程 , Householder 变 
RAI Givens 变换 的 QR 分解 算 法 . 
3.7.1 基于 MGS 的 QR 分解 


在 证 明 QR 分 解 的 存在 性 时 , 我们 利用 了 Gram-Schmidt 正 交 化 过 程 . 但 由 于 数值 稳定 性 方面 
的 原因 ,在 实际 计算 中 ,我 们 一 般 不 采用 Gram-Schmidt 过 程 , 取而代之 的 是 修正 的 Gram-Schmidt 
过 程 (modified Gram-Schmidt process), 即 MGS . 本 算法 的 运算 量 大 约 为 2mn?. 


算法 3.4 基 于 MGS 的 QR 分解 
% Given A € R™*”, compute Q = [q1,..-, dn] E R'™*" and R € R”*” such that A = QR 
1: Set R= [rik] = Onxn (the n x n zero matrix) 
2: if a; = 0 then 
3: q =0 
4 


: else 
5: ru = llall 

6 4 =41/|laill2 
7: end if 

8: for k = 2 to n do 
9 


dk = Qk 
10: fori = 1 to k — 1 do 
11: Tik = q? qk 
12: qk = qk — Tiki 
13: end for 
14: if qk A 0 then 
15: Tkk = laxll2 
16: dk = U/Tkk 
17: end if 
18: end for 


3.7.2 ”基于 Householder 变换 的 QR 分解 

由 定理 3.18 可 知 , 通过 Householder 变换 , 我 们 可 以 将 任何 一 个 非 零 变 量 x e R” 转化 成 
|zllzei; 即 除 第 一 个 元 素 外 , 其 它 都 为 零 . 下 面 我 们 就 考虑 通过 Householder 变换 来 实现 矩阵 的 QR 
分 解 . 

我 们 首先 考虑 m = n 时 的 情形 . 设 和 矩阵 A € R"*", & Hi e R"*" 为 一 个 Householder 变换 ， 
满足 


: Ay 
0 


的 第 一 列 中 除 第 一 个 元 素 外 的 所 有 元 素 都 化 为 0, 即 


rə | das nates = 
hee 0 
HAs=| . - 
: As 
0 
A 
1 0 
Hə = z 
F 4 
则 Hy € R"*", H 
rı 2 | 13 ain 
0 To Q23 An 
HoH, A= 0 0 ; 
: ‘ As 
0 0 


使 得 


Hy_1::: HoH A= 


0 O > Tr | 
由 于 Householder 变换 都 是 正 交 和 矩阵 , 因此 Hi, Ho,..., Hn—1 也 都 是 正 交 和 矩阵 . S 


Q = (Hn HoHi) 1= H] AB, 2 H74 = Ay gs Hp, 
则 Q th TE ZC FEM, H. 
A= (Ha HoH.) 1R= QR. 


以 上 就 是 基于 Householder 变换 的 QR 分 解 的 具体 实现 过 程 . 最 后 所 得 到 的 上 三 角 和 矩阵 RR 就 存放 
在 4 的 上 三 角 部 分 . 矩阵 Q 可 通过 下 面 的 算法 实现 


Q=, 
Q=QH,, k=1,2,...,n—1. 
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E 这 里 我 们 假定 A 是 满 秩 的 ,如 果 A 不 是 满 秩 , 则 可 以 考虑 列 主 元 QR 分 解 . 


IS 如 果 m > n, 我 们 仍然 可 以 通过 上 面 的 过 程 进行 QR 分解, 只 是 最 后 我 们 得 到 一 个 正 交 和 矩阵 
Q e RmXm 和 一 个 上 三 角 和 矩阵 Re R” fE} A= OR. 


E 如果 不 需 要 生成 Q, 则 基于 Householder 变换 的 QR 分 解 的 总 运算 量 大 约 为 2mm2 — 2/3n3. 


如 果 保 留 了 每 一 步 的 Householder H, 则 Q 也 可 以 通过 下 面 的 向 后 累积 方法 实现 : 


Q = In, 
Q= HrQ, k=n-—1,n-2,...,1. 


A 


这 样 做 的 好 处 是 一 开始 Q 会 比较 稀 琉 , 随 着 迭代 的 进行 , Q 才 会 慢 慢 变 满 . 而 前 面 的 计算 方法 ,第 
一 步 就 将 Q 变 成 了 一 个 满 矩 阵 . 采用 这 种 方法 计算 Q 的 运算 量 大 约 为 4(m2n 一 mn? + fn’). 
如 果 将 Q 写成 下 面 的 形式 


Q=I4+wy’, 
则 可 以 采用 分 块 形式 来 计算 W MY, 虽然 运算 量 会 稍 有 增长 ,但 大 多 数 运 算是 矩阵 乘法 , 因此 可 
以 尽 可 能 多 地 采用 3 级 BLAS 运算 ,效率 可 能 会 更 高 . 详情 可 参见 Golub [16] 


算法 3.5 基于 Householder 交换 的 QR 分 解 
% Given A € R™*”, compute Q and R such that A = QR where Q € R™*™ and R € R™*” 
% The upper triangular part of R is stored in the upper triangular part of A 
1: Set Q = Imxm 
2: fork = 1 to n do 
3: x= A(k : m, k) 
4 [8, vg] = house(z) 
5 vx = vk/ ||vrll2 
6 Alk: m, k:n) = (Im-k41 — 2ugup )A(k : m, k : n) 
7: QU :k-1,k:m)=Q(1:k-—1,k : m)(Im-k+1 — 2vev7) 
8 
9; 


Q(k:m,k:m)=Q(k: m, k : m)(Im-k+1 — 2vkvf) 
end for 


E 上 面 的 算法 只 是 关于 利用 Householder 变换 来 实现 QR 分 解 的 一 个 简单 描述 , 并 没有 考虑 
运算 量 问题 . 在 实际 计算 时 , 我们 通常 会 保留 所 有 的 Householder 向 量 . 由 于 第 上 步 中 Ay 所 
对 应 的 Householder 向 量 wv 的 长 度 为 m —k + 1, 因此 我 们 先 把 vg 单位 化 ,使 得 ve 的 第 一 
元 素 为 1 这 样 就 只 要 存储 (2:end), Em 一 个 元 素 ,我 们 可 以 把 这 些 元 素 存放 在 4 的 严 
格 下 三 角 部 分 . 4 的 上 三 角 部 分 仍然 存放 R. 在 计算 Q 时 采用 向 后 累积 的 方法 , 所 以 总 的 运 
算 量 大 约 为 4m2n - 2mn2 + 3n3. 若 m = n, 则 运算 量 大 约 为 8n3. 


E 我 们 也 可 以 考虑 分 块 Householder QR 分解 , 以 便 充分 利用 3 级 BLAS 运算 , 提高 计算 效率 . 


3.7.3 IJET QR 分 解 
当 4 不 是 满 秩 时 , 我 们 可 以 进行 列 主 元 QR 分解 . 


定理 3.21 ( 列 主 元 QR 分 解 ) HACC" (m >n), Hrank(A)=k<n. NHEBREE P, E 


FEE Q EC", 使 得 
Ri Rig 
AP = 
Q 0 0 


mxn 


其 中 Ry, c Ck SAS HELA MEM, 且 对 角 线 元 素 满足 711 > ro >- > rep > 0. 


列 主 元 QR 分 解 的 实现 过 程 与 QR 分 解 基本 类 似 , 只 是 在 第 ! 步 时 , 需要 选 个 列 主 元 , 同时 可 
能 需要 做 一 个 列 交换 . 
假设 经 过 1 — 1 步 后 ,我 们 得 到 下 面 的 分 解 
A? a” 
0 REY 
其 中 POD 是 置换 矩阵 , QOD EERE, ROY e RODD 是 非 奇 异 上 三 角 和 矩阵 . 
下 面 进行 第 ! 步 : 
(1) 首先 计算 RSS? 的 所 有 列 的 范 数 , 如 果 范 数 都 为 0, MRSS? = 0, 此 时 必 有 1 一 1 = 算法 
结 
(2) H< kit, ROY 了 0, 记 范 数 最 大 的 列 为 第 刀 列 (如 果 有 相等 的 , 取 其 中 一 个 即 可 ). 车 
i 关 4, 则 交换 ROD 的 第 1 列 与 第 记 十 1 一 1 列 ,并 记 相 应 的 置换 矩阵 为 P. 


= Jre ` 三 | ` ry ` l- 0 
(3) 以 RE 1) A= i W Householder |r] at, 构造 Householder 变换 H, 并 今 万 = | f 1 a 
1 


4P(U-D = QD A QL-DRC-D， 即 (QD) ape = RC-D， 


PO = PC- P, ml 
7 一 | 二 (7 一 | 
RD AD 
o 2 
其 中 ROY 的 第 一 列 除 第 一 个 元 素 外 , 其 余 都 是 零 . 目 该 元 素 的 值 等 于 RG， 第 i WE 
ži QO £ QUDH7, 则 


会 pl) 
= ? 


T 
H; (Q*) AP = HRUP P, = 


l l 
Ry) Ri 


APO = QO RO = 
Q 0 RÖ 


, 


其 中 RO e Rx! 为 非 奇 异 上 三 角 和 矩阵 . 
依 此 类 推 , 直到 第 步 , 我 们 就 可 以 得 到 A 的 列 主 元 QR 分解, 其 中 R11 的 对 角 线 元 素 的 递减 
关系 是 由 于 选取 列 主 元 和 Householder 变换 的 性 质 得 到 的 . 
3.7.4 基于 Givens 变换 的 QR 分 解 
我 们 同样 可 以 利用 Givens 变换 来 做 QR 分 解 . 
设 A E R"™”, 首先 构造 一 个 Givens 变换 Goi, 作用 在 A 的 最 前 面 的 两 行 上 , 使 得 


Q11 
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由 于 Gor 只 改变 矩阵 的 第 1 行 和 第 2 行 的 值 ,所 以 其 它 行 保存 不 变 . 然后 再 构造 一 个 Givens 变 
换 G31, 作用 在 Ga A 的 第 1 行 和 第 3 行 , 将 第 三 个 元 素 化 为 零 . 由 于 G3, 只 改变 矩阵 的 第 1 行 
和 第 3 行 的 值 ,所 以 第 二 行 的 零 元 素 维持 不 变 . 以 此 类 推 , 我 们 可 以 构造 一 系列 的 Givens 变换 
Gai, G51, .Gan 使 得 Gri e Ga A 的 第 一 列 中 除 第 一 个 元 素 外 , 其 它 元 素 都 化 为 零 , 即 


0 
Cn1 Ga A = 


下 面 我 们 可 以 对 第 二 列 进行 类 似 的 处 理 . 构造 Givens 变换 G32, Ga2,..., Gna 第 二 列 的 第 3 
至 第 nn 个 元 素 全 化 为 震 ,同时 保持 第 一 列 不 变 . 
以 此 类 推 ,我 们 对 其 他 列 也 做 类 似 的 处 理 . 最 后 , 通过 构造 jin(n — 1) 个 Givens 变换 ,将 4 转 
化 成 一 个 上 三 角 和 矩阵 R, 即 
Po GA. 


SQ = (Gnn_1…G21)7. 由 于 Givens SHEER, 所 以 Q tH ARIE CREE. TE, 我 们 就 得 到 
矩阵 A 的 QR 分 解 


A= QR. 


与 Householder 变换 一 样 , 在 进行 Givens 变换 时 , 我 们 不 需要 显 式 地 写 出 Givens FEM. 

对 于 稠密 矩阵 而 言 , 基于 Givens 变换 的 QR 分 解 的 运算 量 比 Householder 变换 要 多 很 多 . 当 需 
要 连续 应 用 一 系列 Givens 变换 时 , 我 们 可 以 使 用 快速 Givens 变换 ( 见 [6]), 但 即便 如 此 , 其 速度 仍 
然 要 慢 于 Householder 变换 , 因此 基于 Givens 变换 的 QR 分解 主要 用 于 当 和 矩阵 的 非 零 下 三 角 元 素 
相对 较 少 时 的 情形 , 比如 对 上 Hessenberg 矩阵 进行 QR 分 解 . 


1 如 果 A E ROP, 其 中 m > n, 我 们 仍然 可 以 通过 Givens 变换 进行 QR 分解 


下 面 是 关于 Givens QR 分 解 的 一 个 简单 描述 . 


算法 3.6 基于 Givens 变换 的 QR 分 解 
% Given A € R™*", compute Q and R such that A = QR where Q € R™*™ and R € R™*” 
% The upper triangular part of R is stored in the upper triangular part of A 


1: Set Q = Triem 

2: for k = 1 to n do 

3 for i = k + 1 to m do 

4: [c, s]=givens(ax,, ik) 

n Ai in) _ A(k,k :n) whereGal’ Ss 
A(i,k : n) A(i,k : n) 一 5 c 

6: [Q(1: m, k), Q(1 : m, i)] = [Q(1 : m, k), Q(1 : m, dGT 

7: end for 

8: end for 
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3.75 ”QR 分 解 的 稳定 性 


基于 Householder 变换 和 Givens 变换 的 QR 分解 都 具有 很 好 的 数值 稳定 性 . 详细 分 析 可 以 参 
考 [43] 和 [21]. 基于 MGS 的 QR 分 解 也 是 向 后 稳定 的 , 参见 [28]. 


当 需 要 计算 矩阵 Q AY, 基于 MGS 的 QR 分 解 的 运算 量 相 对 较 少 , 因此 当 4 的 列 向 量具 有 很 好 
的 线性 无 关 性 时 , 我 们 可 以 使 用 MGS 来 计算 QR 分 解 . 

但 是 , 由 于 舍 入 误差 的 原因 ,最 后 得 到 的 和 矩阵 Q 会 带 有 一 定 的 误差 , 可 能 会 导致 Q 失去 正 交 
性 . 

Björck [5] 证 明了 ,通过 MGS 计算 的 矩阵 Q 满足 


QTQ =I + Emas 其 中 |Eeslle © Emk2(A). 
而 Householder 变换 计算 的 矩阵 Q 满足 
QIQ=T+TEF 其 中 ||Exllo ~ Em. 


因此 , 如 果 正 交 性 至 关 重 要 , 则 当 4 的 列 向 量 接近 线性 相关 时 , 最 好 使 用 Householder 变换 . 
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3.8 ”广义 逆 与 最 小 二 乘 


广义 逆 的 概念 最 早 由 Moore [27] 于 1920 年 提出 , 他 给 出 的 定义 如 下 : BEA © CM”, 若 
X c C7?xm 满足 


AX = PRan(A)s XA= PRan(X)> 
即 AX 和 X4 分 别 为 Ran(4) 和 Ran(X) 上 的 正 交 投 影 算 子 , WE X Æ 4 ANT SG. 
1955 年 , Penrose [31] 利用 下 面 四 个 矩阵 方程 给 出 了 广义 逆 的 定义 . 


定义 3.3 设 4ECmxn, 若 X eC" 满足 


AXA=A 
XAX =X 

(AX)* = AX 
(XA)* = XA. 


DAR X A A 的 广义 逆 (A Moore-Penrose 逆 , 简称 MP $), 记 为 Al. 


可 以 证 明 , 以 上 两 个 定义 是 等 价 的 . 
定理 3.22 [51] 设 ACC”, 则 满足 矩阵 方程 (3.19)-(3.22) 的 矩阵 X c Cnxm 存在 且 唯一 . 


E 若 4EeCnxm 非 奇异 , 则 AT = AT. 


ww Ae C™*", rank(A) =r > 0, A MY SVD HA 


21 0 
A=U 站 j V*, dy = diag(o1,02,...,07;) € R’*’. 
则 容易 验证 
D 0 
Ai=V a, 
0 0 


下 面 是 广义 逆 的 一 些 基 本 性 质 . 

定理 3.23 设 4 < Cmxm, il 
(1) (A =A; 
= 
(3) rank(A) = rank(Ai) = rank( AŤ A); 


(4) (AA*)t = (A*)TAT, (At AT = AT(A*I; 
(5) (AA*)tAA* = AAT, (A*A) A*A = ATA; 
(6) At = (A*A)tA* = A*(AA*)i, 
特别 地 , 若 A 列 满 秩 , 则 AT = (A*A)-14*, 若 4 行 满 秩 , 则 AT = A*(AA*)1; 
(7) U,V RBH, MW (UAV) = V*ATU*, 
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号 一 般 来 说 , 当 A, B 是 方 阵 时 ， 
e (AB)! + BIAl, 
e AAt + ATA; 
© (A*)t (ATS, 
。 A 和 At 的 非 零 特征 值 并 不 是 互 为 倒数 . 


定理 3.24 设 A ECmxm, 则 


推论 3.25 (广义 逆 与 正 交 投影 ) 设 A € Cmxm, 则 
P4 = AAt, Par =A'A, 


其 中 Py 和 Pyr 分别 表示 Ran(4) 和 Ran(47) 上 的 正 交 投 影 变 换 . 


3.8.1 “广义 逆 的 计算 
利用 SVD 


我 们 可 以 利用 4 的 奇异 值 分 解 来 计算 At. 但 是 一 般 地 讲 , 这 个 工作 量 很 大 . 因为 奇异 值 分 解 


的 工作 量 与 求 44* 或 A*A 的 特征 值 问题 有 关 . 
利用 满 秩 分 解 
To be continued ... 
Greville 递 推算 法 
To be continued ... 
3.8.2 ”广义 逆 与 线性 最 小 二 乘 
定理 3.26 设 Ae 民 "x", 则 线性 最 小 二 乘 问题 (3.1) 的 解 为 


a= Ab+ (I — Par)z, VzeER". 


证 明 . 参见 [51, page 85]. 口 


E 通常 ,线性 最 小 二 乘 问题 的 解 (3.23) 不 是 唯一 的 . 但 当 A 列 满 秩 时 , Par = 了 工 此 时 解 唯一 . 


定理 3.27 HK A cR” 的 解 集 为 S, 则 


min ||æ||2 


存在 唯一 解 , 即 满 足 (3.24) 的 线性 最 小 二 乘 问 题 (3.1) 的 解 存在 且 唯 一 . 


证 明 . 参见 [51 page 85]. 口 
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课 后 习题 

设 A € Rmxn, 证 明 : Ran( AT) = Ran( AT A). 

证 明定 理 3.7, 即 奇异 值 的 相关 性 质 . 

证 明 奇 异 值 的 最 小 最 大 定理 , 即 定理 3.10. 

证 明 奇 异 值 的 扰动 性 质 , 即 定理 3.12. 

BUERE 4 的 奇异 值 分 解 为 4 = U EV* = Yo oiuiv? € Cmxm, 证 明 


i=l 


min A- B]|r = ||4- A T 二 G2 ope p2 
BeCmxn, rank(B)=k | lr =I lle k+1 © “k+2 n 


k 
其 中 Ap = 》 ouo. 
i=l 


AE Ron 证 明 p(A) < amaz(4) . 


BEA © Rx", 证 明 |4l2 > X A2(A). 

(提示 : 利用 已 范 数 与 迹 的 关系 , 以 及 QR 分 解 

wr £0, HE u,v E€ RIAA. RIG E(u, v, T) = I — ruv” 的 特征 值 . 

设 4e R”™” FETE ACFE, Il 4 可 表示 成 至 多 n 一 1 个 Householder 变换 的 乘积 . 

BEA E RO 是 正 交 矩阵 , 则 A 可 表示 成 至 多 3n(n — 1) 个 Givens 变换 的 乘积 

W x = [zx1,z2,...,zn| E R” 是 一 个 非 零 向 量 , H Æ Householder 和 矩阵, 满足 Hx = ae. 
证 明 : H 的 第 一 列 与 x 平行 . 

设 Hy, c R*** 是 Householder 变换 , HEP k <n. 


Tn- 
证 明 : Hy, = | i i 


FE n 阶 Householder 变换 . 
k 


( 极 分 解 ) 设 A € CPX”, 

证 明 : 存在 本 矩阵 U 和 唯一 的 Hermite 半 正 定 和 矩阵 P, 使 得 A = PU. 

进一步 , 若 A 非 奇 异 , 则 U 也 是 唯一 的 . 

te Ae Cn"xn. 

证 明 : A 可 对 角 化 当 且 仅 当 存在 Hermite 正定 矩阵 书 使 得 P-1AP 是 正规 矩阵 . 
(提示 : 利用 极 分 解 , 但 不 是 对 4 进行 极 分 解 ) 


Til 712 


设 R= E R2X?, 其 中 ri 关 722, 求 一 个 Givens 变换 G, 使 得 GTRG = 


722 


722 sd 


it R e R"*" 是 一 个 上 三 角 和 矩阵 , 上 且 对 角 线 元 素 互 不 相同 . 

证 明 : FE 7E TE CHEE Q, 使 得 QTRQ 为 上 三 角 和 矩阵 , 且 对 角 线 元 素 为 RR 的 对 角 线 元 素 的 降 
序 排列 . 

设 Ae Cx 有 nn 个 不 同 的 特征 值 , 其 Schur 分 解 为 4 = URU*, Ep U WAE, RNE 
= Ase. WEE Be Cn"x 满足 AB = BA. 证 明 : U*BU 是 上 三 角 和 矩阵 . 
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计算 题 
1 1 1 
3.18 用 Householder ti} FFE A= |2 -1 —1] 的 QR 分 解 . 
2 —4 10 
3.19 BEA eR" (m > n) EL rank(A) =n. HSE | 7 人 | 的 条 件数 用 人 4 的 奇异 值 表示 ) 
3.20 设 AE R"*” 是 一 个 对 角 加 边 和 矩阵 
a1 bo b3 bn 
C2 a2 


试 给 出 用 Givens 变换 计算 4 的 QR 分 解 的 详细 算法 . 


实践 题 

3.21 编写 基于 Householder 变换 的 QR 分 解 的 Matlab 函数 : [Q, R]=QR_Householder(A) . 

322 HA = . ,其 中 R e RO 是 上 三 角 和 矩阵 , 9 < Rmxn 是 稠密 矩阵 , 试 描述 A 的 基于 
Householder 变换 的 QR 算法 . 要 求 算 法 过 程 中 始终 保持 R PWE. 


3.23 W A = R+ uT, HP Re R” Eb =A, u,v e R” 为 非 零 列 向 量 , 试 给 出 计算 A 的 
QR 分 解 的 有 效 算 法 . (提示 : 使 用 Givens 变换 , 算法 总 运算 量 大 约 为 O(n2)) 


3.24 构造 列 主 元 QR 分 解 的 算法 . 
3.25 构造 矩阵 的 LQ 分 解 算法 , 其 中 工 为 下 三 角 和 矩阵 , Q HEXER. 


第 四 章 “” 非 对 称 特征 值 问题 


设 A € R"x" 是 一 个 非 对 称 的 稠密 矩阵 , 本 章 主要 讨论 如 何 计算 4 的 全 部 特征 值 和 特征 向 量 


记 A 的 特征 值 为 入 ,和 2,.…, An. 本 章 中 我 们 总 是 假定 


[Aa] = [A2] = +++ > [An] = 9, 


即 和 4 的 特征 值 按 绝 对 值 ( 模 ) 降序 排列 
本 章 主 要 介绍 以 下 方法 : 

。 TARRA 

。 位 移 策略 与 反 迭 代 技 巧 

© TRACE 

© QR 算法 

e Hessenberg 矩阵 与 实用 的 QR 算法 


关于 稠密 和 矩阵 特征 值 计算 的 参考 资料 有 : 


e J. H. Wilkinson, The Algebraic Eigenvalue Problem, 1965 [43] (有 中 文 翻译 ) 
e B.N. Parlett, The Symmetric Eigenvalue Problem, 2nd Eds., 1998 [29] 
e G. W. Stewart, Matrix Algorithms, Vol II: Eigensystems, 2001 [37] 
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广义 特征 值 问题 
广义 Schur 分 解 


.4-2. 


ey 


4.1 IA 
41.1 WARA 

窜 迭 代 是 计算 特征 值 和 特征 向 量 的 一 种 简单 易 用 的 算法 . 罕 迭 代 虽 然 简单 ,但 它 却 建立 了 计 
算 特 征 值 和 特征 向 量 的 算法 的 一 个 基本 框架 . 


算法 4.1 RIAA (Power Iteration) 
1: Choose an initial guess «© with ||a ||. = 1 
2: set k = 0 
3: while not convergence do 
4: yk) = Art’) 
k+1) _ yFth [y+ | 


一 、 


5 x 

6 Mega = (FD, ArtD) % 内 积 
7: k=k+1 
8: end while 


FAERIE. 假设 
(1) A € Rn 是 可 对 角 化 的 , 即 4 = VAVI, 其 中 A = diag(A1,A2,---,An) E€ C”, V = 
(Oi; v2; on E C”, Blea = 1 (i = 1,2,... n). 
(2) 同时 ,我们 还 假设 Al > |A2| > Js] > --- > Anl. 
由 于 Ve Cx 非 奇异 ,所 以 它 的 列 向 量 组 构成 Cn 的 一 组 基 . 因此 和 迭代 初始 向 量 x(0 可 表示 为 


T 


0 
) = avi + aw +--+ + antn = Via1,a2,..-, On| : 


igh 


我 们 假定 ai A 0, 即 c© 不 属于 不 变 子 空间 span{ve, v3,..., Un} (由 于 2 是 随机 选取 的 , 从 概率 
意义 上 讲 , 这 个 假设 通常 是 成 立 的 ). 于 是 我 们 可 得 


X |Ai/A1| < 1,i = 2,3,..., n, HTE 


k 
lim (>) =0, i=2,3,...,n. 


大 一 co 


故 当 趋向 于 无 穷 大 时 , 向 量 
T 


k k 
ag / 和 2 Qn [An 
1, 一 | 一 e k=0,1,2,... 
hg (3) by ”ad 后] 和 ) ri 7 


收敛 到 ei = [1,0,..., 0)". 所 以 向 量 z = Ake /|| Ae ||. 收敛 到 o, 即 4 的 对 应 于 ( 模 ) 最 
大 的 特征 值 Xi 的 特征 向 量 . 而 jx = (@))* Ac SUB vt Avi = A1. 
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显然 , 宪 迭 代 的 收敛 快慢 取决 于 |X2/ 和 1| 的 大 小 ,|Xz/Xi| BY), 收敛 越 快 . 
通过 上 面 的 分 析 可 知 , 客 迭 代 只 能 用 于 计算 矩阵 的 ( 模 ) 最 大 的 特征 值 和 其 相应 的 特征 向 量 . 


当 | 和 2/ 和 A1| 接近 于 工时 ,收敛 速度 会 非常 慢 . 同时 , 如 果 4 的 模 最 大 的 特征 值 如 果 是 一 对 共 斩 复 数 ， 
WU FEET HEA ER. 


412 ”位移 策略 
为 了 加 快 究 迭 代 算 法 的 收敛 速度 , 我 们 需要 尽 可 能 地 减 小 |Xz/Xi| 的 值 . 一 个 简单 易 用 的 策 


略 就 是 使 用 位 移 策 略 , 即 计算 和 矩阵 A 一 of 的 特征 值 , 其 中 o 是 一 个 给 定 的 数 . 我 们 称 o 为 位 移 
(shift), 其 取 值 满足 


(1) Ai- 是 4- er 的 模 最 大 的 特征 值 ; 

一 尽 可 能 地 小 . 

其 中 第 一 个 条 件 保证 最 后 所 求 得 的 特征 值 是 我 们 所 要 的 第 二 个 条 件 用 于 加 快 窜 迭 代 的 收敛 速 
度 . 位 移 策略 在 特征 值 计 算 中 经 常 被 使 用 , 是 一 个 非常 有 效 的 加 速 方法 . 

413 RRA 


WAAR Ba BEA ATOR AT! 的 特征 值 , 则 可 求 出 4 的 模 最 小 的 特征 值 . 事实 上 , 利用 这 种 思 
想 和 位 移 策略 ,我们 就 可 以 计算 矩阵 的 任意 一 个 特征 值 . 


D Be 


算法 4.2 反 和 迭代 算法 (Inverse Iteration) 


1: Choose a scalar ø and an initial vector z®) with ||z® ||) = 1 
2: set k =0 

3: while not convergence do 

4: yt) = (A — oI) tr) 
5 

6 

7 

8 


gík+1) 一 y ED yt) | 
Uke = (x+), Ag+) 
k=k+1 

: end while 


这 个 算法 称 为 反 和 迭代. 在 该 算法 中 , ue 收敛 到 距离 o 最 近 的 4 的 特征 值 , 而 e 则 收敛 到 其 

应 的 特征 向 量 . 

若 选取 离 A, 非常 接近 的 位 移 o, 则 与 (4 - o7)-1 的 其 它 特征 值 相 比 , (Ag 一 o)-1 的 值 可 以 是 
非常 大 , 因此 反 和 迭 代 算 法 的 收敛 速度 aie | 

反 迭 代 算 法 的 男 一 个 优点 是 , 只 要 选取 合适 的 位 移 o, 就 可 以 计算 A 的 任意 一 个 特征 值 . 
但 反 迭 代 算 法 的 缺点 也 很 明显 : ee (A—ol)y**) = xz 这 就 
需要 对 4 一 of 做 一 次 LU 分 解 . 而 且 , ARERR, BOR ACRE ROR MEME. 


4.1.4 Rayleigh HIIR 
EARRA P, 有 一 个 很 重要 的 问题 需要 考虑 , 即位 移 c 如 何 选 ?? 


显然 ,选取 o 的 基本 原则 是 使 得 其 与 所 求 的 特征 值 越 靠 近 越 好 . 这 里 需要 指出 的 是 , 在 每 步 迭 
代 中 ,位 移 o 可 以 不 一 样 , 即 在 迭代 过 程 中 可 以 选取 不 同 的 位 移 o. 


隐 


由 于 在 反 和 迭代 算法 4.2 P, ue 是 收敛 到 所 求 的 特征 值 的 ,所 以 我 们 可 以 选取 jx 作为 第 天 步 的 
位 移 . 这 时 所 得 到 的 反 迭 代 算 法 就 称 为 Rayleigh 商 和 迭代 (Rayleigh Quotient Iteration), 简 记 为 RQI. 


算法 4.3 Rayleigh 商 和 迭代 算法 (Rayleigh Quotient Iteration (RQI)) 


: Choose an initial vector z(0) with ||z® j2 = 1 
: setk =0 


: compute o = (z(0))* Ax 


: while not converge do 


5: yt?) = (A= oI) a) 
6: gík+1) 一 yt) yt) |, 
7: Mkt = (x+), Ag (kt) 
8: o = Hk+1 

9: k=k+1 

10: end while 


下 面 我 们 讨论 Rayleigh 商 迭 代 算 法 的 收敛 性 . 首先 给 出 收敛 速 度 的 定义 . 


定义 41 设 点 列 {er} KK, E Jim ex = 0. 若 存 在 一 个 有 界 常 数 0 < c < 00, 使 得 


。 lepti| _ 
KE 一 co |€x|? , 


则 称 点 列 {ej} 是 p 次 (渐进) 收敛 的 .车 1<p< 2 或 p=1 且 c=0 则 称 点 列 是 超 线性 收敛 的 . 


关于 RQI 算 法 的 收敛 性 ,我 们 有 下 面 的 定理 . 
定理 4.1 车 所 求 的 特征 值 是 单 重 的 , 则 当 第 kk 步 误差 充分 小 时 , A k+l 步 误差 是 第 太 步 误差 的 


三 次 方 , 即 RQI 算法 是 局 部 三 次 收敛 的 . 


证 明 . To be continued ... 口 


关于 RQ 算法 的 全 局 收敛 性 , 可 见 参考 文献 [29]. 
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A2 正 交 迭代 

震 适 代 和 反 人 迭代 都 只 能 同时 计算 一 个 特征 对 . 如 果 想 同时 计算 多 个 特征 对 , 我 们 可 以 采用 多 
个 初始 向 量 进行 迭代 . 而 正 交 迭代 算法 就 是 基于 这 种 思想 , 它 能 够 计算 4 的 一 个 不 变 子 空间 , 从 而 
可 以 同时 计算 出 多 个 特征 值 . 


算法 4.4 ERK KIA (Orthogonal Iteration) 


1: Choose an n x p column orthogonal matrix Zo 
2: set k = 0 

3: while not convergence do 

4: compute Y,4; = AZ; 

5 Yer = Zk Rez: %QR 分 解 

6 k=k+1 

7: end while 


在 算法 中 使 用 QR 分 解 是 为 了 保持 Zi 的 列 正 交 性 , 使 得 其 列 向 量 组 构成 子 空 间 span Ai20} 
的 一 组 正 交 基 , 以 确保 算法 的 数值 稳定 性 . 

下 面 我 们 分 析 该 算法 的 收敛 性 质 . 假设 4 是 可 对 角 化 的 , BY A = VAV, 其 中 人 = 
diag(A1, Az,- An) E || > > pl > peal > ++ > JAn. 则 可 得 


span{Zx} = span{Y,} = span{ AZr_1}, k=1,2,..., 


由 此 可 知 
span{ Z} = span{ A" Zo} = span{VA*V—1Zp}. 
我 们 注意 到 
lie 
(k) 
AFV! Zo = A% 1 | Viga K | . 
n—p 
| Onl 


由 于 当 i > p 时 有 |Xi/Xp| < 上 所 以 当天 趋 于 无 穷 大 时 , WY), 趋向 于 0. 令 了 = [Vp, Vap] Il 
(k) 


= W, k 
VAFV-1Zp = AČ [Vp, Vp] We) | =A% (vow, 十 Veo) 
n—p 


所 以 当天 一 oo 时 ,有 
span{ Zk} = span{ VA" VT! Zo} = span{V,W,”) + Vip We",} 
一 span{V,W,*)} = span{V,}, 
即 span{Zx} 趋向 于 4 的 一 个 p 维 不 变 子 空间 span{Vp}. 
当 4 不 可 对 角 化 时 ,利用 Jordan 标准 型 ,我 们 可 以 得 到 同样 的 结论 , 见 [41, 42]. 
在 正 交 迭代 中 , 如 果 我 们 取 Zo = 天 则 可 得 到 一 类 特殊 的 正 交 迭代 算法 . 此 时 , 在 一 定 条 件 下 ， 
正 交 迭代 会 收敛 到 A 的 Schur 标准 型 . 
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43.1 ”算法 介绍 
在 正 交 迭代 中 , 如 果 取 Zo = I, MEZER PARES i. 


算法 4.5 QR 迭代 算法 (QR Iteration) 
1: Set Ay = Aand k = 1 
2: while not convergence do 
3: Ak 一 QiRi % QR 分 解 


4: compute Ap41 = RkQk 
5: k=k +1 
6: end while 


这 个 算法 就 是 QR 迭代 算法 . 在 该 算法 中 , 我 们 有 
Apt = Rede = (QE Qn) ReQr = Qh (QeRu Qn = QE ARQ 
由 这 个 递 推 关 系 可 得 
Anti = Qk ARQ = Qk Qk-14r-1Qr-1Qk =: = Qk Qk- QI AQI QQ 


W Qe = Q1 O40, = a a kes aP , JU 


Arti = Qk 4Qk， (4.1) 
即 Appi 与 4 正 交 相似 . 
4.3.2 ”QR 和 迭代 与 窘 和 迭代 的 关系 
W Ry = RiRs_-1… Ri, WA 
Qr Br = Qr-1(QrRe) Re—1 = Qr- (Ag) Rr = Qe-1(Qh1 AQk-1) Rea = AQn-1 Ret, 
由 此 递 推 下 去 , 即 可 得 
Q,R, = A1 Rı = AIQI R = 44. (4.2) 


故 
Qnr Ryel = A*er, 
这 说 明 QR ERG RE (CEARAM. 
假设 [Aa] > JA] > … > | Au, 则 当天 充分 大 时 , Ake, 收敛 到 4 的 模 最 大 特征 值 和 1 对 应 的 特 
征 向 量 , 故 @ 的 第 一 列 gO 也 收敛 到 Xi 对 应 的 特征 向 量 . 因此 , 当天 充分 大 时 , Ag” > rg”, 
此 时 由 (4.1) 可 知 , Appi 的 第 一 列 为 
Aga 1) = DT gl” = MOT = A1e1, 


即 Ansa 的 第 一 列 的 第 一 个 元 素 收敛 到 入, 而 其 它 元 素 都 趋向 于 0, 收敛 速度 取决 于 | 和 2/ 和 1| 的 大 


J, 
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43.3 ”QR 和 迭代 与 反 迁 代 的 关系 


下 面 观察 Q 的 最 后 一 列 . 由 (4.1) 可 知 
AQE = Ok Ap41 = QQEHIREH = Okt1 Ret, 
所 以 有 
Oe = AQ RM. 
由 于 roi 和 Qe HEEZE, 上 式 两 边 转 置 后 求 着, 可 得 
_ _ -1 : 要 ee 
Qk+1 = (ka) = (Gav 847) = (A7) "Ot y: 
观察 等 式 两 边 和 矩阵 的 最 后 一 列 , 可 得 
gk) =& (a GF), 
其 中 ci 为 某 个 常数 . 依 此 类 推 , 可 知 
ah) e(n, 
其 中 c 为 某 个 常数 . 假设 4 的 特征 值 满足 | 和 | > Aal >: > JAn- 1l > |An| > 0, WJ Azt Æ (AT) 
的 模 最 大 的 特征 值 . H ECHOICE AT A, gt 收敛 到 Ce 的 模 最 大 特征 值 A, 1 所 对 应 的 
特征 向 量 , 即 当天 充分 大 时 ,有 


(AT) * GD > =1g gD, 


所 以 
AT G&D > yy gt), 


由 (4.1) 可 知 , AZ, | 的 最 后 一 列 为 


Ariat n) = QE AT gl) > MO ae” = Mnen, 


即 Apa 的 最 后 一 行 的 最 后 一 个 元 素 收敛 到 An 而 其 它 元 素 都 趋向 于 0, 收敛 速度 取决 于 
|An/An—1| 的 大 小 . 
43.4 ”QR 和 迭代 与 正 交 迭代 的 关系 

下 面 的 定理 给 出 了 QR 迭代 算法 与 正 交 迭代 算法 ( 取 20 = 也 之 间 的 关系 . 


定理 4.2 REXER E 44 和 QR 算法 4.5 中 所 涉及 的 QR 分 解 都 是 唯一 的 . Ap 是 由 QR 迭代 
算法 和 5 生成 的 矩阵 , Fi 是 由 正 交 迭代 算法 4.4( 取 20 == 了 生成 的 和 矩阵, MA 


Ani = ZEAZp. 


因此 , 当 A 的 所 有 特征 值 的 绝对 值 都 互 不 相同 时 , Ap SRB A 的 Schur 标准 型 . 
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证 明 . 我 们 用 归纳 法 证 明 该 结论 . 
X k = 0 if, Ay = A, Zo = 工 结论 显然 成 立 . 
Ww A, = Zp_,AZp-1. HF Zi_1 IESE, RTA 


Zu Rx = Ve = AZp 1 = (Zi Zp 1)AZk-1 = Zea Ák = (ZerQz) Pe, 


即 Zi Ri FU (Zk-1Qr) Re 都 是 Ve AY QR 分 解 . 由 QR 分 解 的 唯一 性 可 知 , Zk = Zn_1Q4, Êk = Re. 
所 以 


Z} AZk = (Zi_1Q1) A(Ze-1Qk) = QE An Qk = QF (QERE)Q = RkQk = Anti, 


BI Aky = ZPAZ,. 由 归纳 法 可 知 ,定理 结论 成 立 . 口 


4.3.5 ”QR 和 迭代 的 收敛 性 
定理 4.3 7% A= VAV! € R°”, AY A =diag(A1,A2,..., An), EA Al > JA > +: > Anl. # 


TV 的 所 有 主子 矩阵 都 非 奇 异 ( 即 V-I 存 在 LU 分 解 ) , 则 A, 的 对 角 线 以 下 的 元 素 均 收敛 到 0， 


证 明 . WV = QyRy 是 V AI QR Sfi, VT = LU 是 V1 的 LU 分解 ,其 中 工 ,是 单位 下 三 角 和 矩 
阵 . 则 


A*=VAV | = QRArLU, = Qo Ro LEA AO, 


注意 到 矩阵 ALA A 是 一 个 下 三 角 和 矩阵 , FL (i,7) 位 置 上 的 元 素 为 
0, i<j, 
(APL YA) (6,3) = 41, i=j, 
Leli, M/A, i>i. 
由 于 当 i > 了 时 有 A/A] < 1, BOY k RAKET, AKAK 趋向 于 0. 所 以 我 们 可 以 把 ALA 写成 
ArL,A™*=I+ Ep, 
其 中 i 满足 jim Ey = 0. 于 是 
A" = QyRy(I + Ex)A*Uy = Qu (I + Ry Ek Ry')RyA* Uy. (4.3) 


Rr, 一 工 将 其 代入 (4.3) 可 得 


A" = QuQn, Re, RyN"U, = QuQn, Dy(D, “Ra, ROAD (4.4) 


其 中 Dy EXHAR, 其 对 角 线 元 素 的 模 均 为 1, 它 使 得 上 三 角 和 矩阵 Di Re, RoA*U 的 对 角 线 元 
素 均 为 正 . 这 样 , (4.4) 就 构成 AF 的 QR 分 解 . 又 由 (4.2) 可 知 4* = Qr Re, 根据 QR 分 解 的 唯一 性 ， 
我 们 可 得 


Ök = QQE, Dk, Ry = D} Bg Rel Uy 
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所 以 由 (4.1) 可 知 
Anyi = QF AQk 
= (QQ Dr)’ VAV QQ r, Dr 
= DE QE, Q2 Qu RIAR QQ QE, Di 
= DE QE, RAR Qa De. 
由 于 Qp, > L BRA k — 00 Bf, Ary 收敛 到 一 个 上 三 角 和 矩阵 . 收敛 速度 取决 于 
max Ait 
l<i<n| dj 
的 大 小 . 口 


需要 指出 的 是 , 由 于 Dp 的 元 素 不 一 定 收敛 , 故 An 对 角 线 以 上 (不 含 对 角 线 ) 的 元 素 不 一 
FEW, 但 这 不 妨碍 Ap 的 对 角 线 元 素 收敛 到 4 的 特征 值 ( 即 Api 的 对 角 线 元 素 是 收敛 的 ) . 
4.3.6 THLE QRIAK 

为 了 加 快 QR FEF CAYCE, ATT AY ARAME EW A BIR EA 
算法 4.6 带 位 移 的 QR 迭代 算法 (QR Iteration with shift) 


1: Set Ay = Aand k = 1 


2: while not convergence do 


3: Choose a shift ok 

4 Ap — onl = Qk Rk % QR 分 解 
5 Compute Agi, = RkQk 十 ak 
6: k=k+1 
7: end while 


与 不 带 位 移 的 QR 迭代 一 样 ,我 们 有 
Anyi = RkQr + ont = (QEQk)ReQe + onl = QE (Ak — oD)Q + ont = QE AkQk 


所 以 , 带 位 移 的 QR 算法 中 所 得 到 的 矩阵 Ay 仍然 与 Ay = A 正 交 相似 . 

在 带 位 移 的 QR 迭代 算法 中 ,一 个 很 重要 的 问题 就 是 位 移 ox 的 选取 . 在 前 面 的 分 析 中 我 们 已 
ZEAE, Anyi (n,n) 将 收敛 到 A 的 模 最 小 的 特征 值 , 且 收 敛 速度 取决 于 模 最 小 特征 值 与 模 第 二 小 
特征 值 之 间 的 比值 . 显然 , 若 oj 就 是 4 的 一 个 特征 值 , 则 Ag — og7 的 模 最 小 特征 值 为 0, 故 QR 算 
法 和 迭 代 一 步 就 收敛 . 此 时 


(n—1)x(n—1) 


Ak+1 = RkQk + onl = | ktl "| : 
0 Ok 


如 果 需 要 计算 4 的 其 它 特征 值 , MEITE ACOD 使 用 带 位 移 的 QR 迭代 算法 . 

通常 ,如 果 op 与 4 的 某 个 特征 值 非常 接近 , 则 收敛 速度 通常 会 很 快 . 由 于 A(n, n) 收敛 到 4 
的 一 个 特征 值 ,所 以 在 实际 使 用 中 , 一 个 比较 直观 的 位 移 选择 策略 是 mk = Ap (n,n). 事实 上 , BORE 
的 位 移 选 取 方法 通常 会 使 得 QR 迭代 有 二 次 收敛 速度 . 
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44 带 位 移 的 隐 式 QR 和 迭代 


QR 友 代 算法 中 需要 考虑 的 另 一 个 重要 问题 就 是 运算 量 : 每 一 步 迭 代 都 需要 做 一 次 QR 分 解 
和 和 矩阵 乘积 , 运算 量 为 Oln’). 即使 每 计算 一 个 特征 值 只 需 适 代 一 步 , 则 计算 所 有 特征 值 也 需要 
O(n*) 的 运算 量 . 这 是 令 人 无 法 忍受 的 . 下 面 我 们 就 想 办 法 将 总 运算 量 从 O(n4) 减 小 到 O(n3). 

为 了 实现 这 个 目标 , 我 们 需要 利用 Hessenberg 矩阵 . 具体 步骤 如 下 : 首先 通过 相似 变化 将 A 
转化 成 一 个 上 Hessenberg 和 矩阵, 然后 再 对 这 个 Hessenberg 拖 阵 实施 隐 式 QR 迭代 . Aris bast QR 
迭代 , 就 是 在 QR 迭代 中 , 我 们 不 需要 进行 显 式 的 QR 分 解 . 这 样 就 可 以 将 QR 迭代 的 每 一 步 运算 
EAM O(n) 降低 到 O(n?) 从 而 将 总 的 运算 量 降低 到 O(n). 


4.4.1 上 Hessenberg 矩阵 
i A = (hij) Ee R", Æ i > jj 十 1 时 ,有 hi; = 0, WEK H X E Hessenberg 矩阵 . 


定理 4.4 ACR”, 则 存在 正 交 矩阵 Q c R”, 使 得 Q@4QL 是 上 Hessenberg 42%. 


下 面 我 们 给 出 具体 的 转化 过 程 . 这 里 我 们 主要 使 用 Householder 变换 : 对 任意 向 量 x € R”, 总 
4#7E—“ Householder EE H = I — Bvv7 使 得 Hz = ||x||2e1, 其 中 e1 = [1,0,...,0]7. 
我 们 以 一 个 5 x 5 的 矩阵 A 为 例 . 


第 一 步 : $ Q = diag(hyi, H1), 其 中 Ay 是 对 应 于 向 量 4(2 : 5,1) 的 Householder 4ER. 于 是 可 
得 


由 于 用 Qf AR Q14 时 ,不 会 改变 QA 第 一 列 元 素 的 值 , 故 


x x x x x 
x x x l 
A, = QI AQ? = x ok ok 水 | . 
x x x x 
x x x x 
第 二 步 : S Qo = diag(12x2, H2), 其 中 Ho 是 对 应 于 向 量 A (3 : 5,2) 的 Householder 4E E, 则 用 


Qo ER Ar IN, 不 会 改变 Ay 的 第 一 列 元 素 的 值 . 用 QS AR QA 时 ,不 会 改变 Qo Ar 前 两 
列 元 素 的 值 . 因此 ， 


和 Ao Ê QAQ? = | 


l | 


O O © x 


* 
* 
* 
* 


* 
* 
* 
* 


| 


Q241 = 


0 x x* * * 


* 
* 
* 


0 x 
0 


j=) 
j=) 
* 
* 


f=) 
So 
* 
* 
© 
So Q 
* * 
* * 
* * 
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第 三 步 : + Q = diag(I3x3, H3), 其 中 万 3 是 对 应 于 向 量 Ao(4 : 5,3) 的 Householder 矩阵 , 则 有 


koko k 六 水 koko ko k * 
koko 六 Ok Ok koko ko Ok Ok 
Q342=|]0 * * * * 和 Az = Q3A2Qi = |0 kok x 
0 0 x * * 0 0 x * x 
0 0 0 * «x 0 0 0 x ' 


这 时 , 我 们 就 将 4 转化 成 一 个 上 Hessenberg 和 矩阵, 即 QAQT = Az 其 中 Q = Q3Q2Q1 是 正 
ACFE, 43 是 上 Hessenberg 矩阵 . 


下 面 是 将 任意 一 个 矩阵 转化 成 上 Hessenberg 矩阵 的 算法 . 


算法 4.7 上 Hessenberg 化 算法 (Upper Hessenberg Reduction) 

1: SetQ=I 

2: fork = 1 ton — 2 do 

3: compute Householder matrix Hp = I — Bevivd with respect to A(k + 1 : n, k) 

4: A(k+1:n,k:n)=H,-A(k+1:n,k:n) 
= A(k+1:n,k:n) — pkv (vp A(k+1:n,k: n)) 

5: A(l:n,k+1:n)=A(1:in,k+1:n)- HF 
=A(l:n,k+1:n)—-BrAll:n,k+1:n)vpof 

6: Qlk+1:n,k:n)= Hp- Qlk+1:n,k:n) 
=Q(k+1:n,k:n)— bkk (vfQ(k+1 :n,k:n)) 


7: end for 


注 : 在 实际 计算 时 , 我 们 不 需要 显 式 地 形成 Householder 矩阵 Hy. 

上 述 算法 的 运算 量 大 约 为 Hn? + O(n). 如 果 不 需 要 计算 特征 向 量 , WEZE Q 也 不 用 计 
算 , 此 时 运算 量 大 约 为 Pn? + O(n’). 

上 Hessenberg 矩阵 的 一 个 很 重要 的 性 质 就 是 在 QR 迭代 中 能 保持 形状 不 变 . 


定理 4.5 设 A Ee R"*x" 是非 奇 异 上 Hessenberg #24, 其 QR XA A= QR, N A £ RQ 也 是 上 


Hessenberg 矩阵 . 


WEAR. i A = QR 是 4 的 QR 分 解 , 则 Q = AR. AF REP LEA, PRD R-1 也 是 一 个 
EZER. 因此 Q 的 第 j 列 是 A 的 前 7 列 的 线性 组 合 . 又 A 是 上 Hessenberg 矩阵 , 所 以 Q 也 是 
一 个 上 Hessenberg 矩阵 . 

相 类 似 地 ,我们 很 容易 验证 RQ 也 是 一 个 上 Hessenberg 和 矩阵. 所 以 结论 成 立 . 口 


OE 车 4 是 奇异 的 ,也 可 以 通过 选取 适当 的 Q, 使 得 定理 45 结论 成 立 . 


由 这 个 性 质 可 知 , 如 果 A © R"*” 是 上 Hessenberg IERE, Ill] QR 过 代 中 每 一 步 的 运算 量 可 大 大 
降低 . 
Hessenberg 矩阵 还 有 一 个 性 质 , 就 是 在 QR 友 代 过 程 中 能 保持 不 可 约 性 . 


定理 4.6 i A cR” 是 不 可 约 上 Hessenberg 2%, $ QR DA A= QR, MAL RQ 也 是 不 
可 约 上 Hessenberg 矩阵 . 


证 明 . 留 作 练习 . 口 


推论 4.7 设 A CR” 是 不 可 约 上 Hessenberg 424%, 则 在 带 位 移 的 QR ER P, 所 有 的 Ap 均 是 


不 可 约 上 Hessenberg 矩阵 . 


4.4.2 Base QR ŠIE 


在 QR ERP, 我 们 需要 先 做 QR AIS Ak = Qe Re, 然后 再 计算 Akti = ReQp. 但 事实 上 ,我 
们 可 以 将 这 个 过 程 进一步 简化 , 即 不 用 计算 Ar 的 QR 分 解 , 可 以 直接 计算 Arpi 这 就 是 隐 式 QR 
ER. 

我 们 这 里 考虑 不 可 约 的 上 Hessenberg 矩阵 , 即 A 的 下 次 对 角 线 元 素 都 不 为 0. 事实 上 ,和 若 4 是 
可 约 的 , 则 A 就 是 一 个 块 上 三 角 算 阵 , 这 时 4 的 特征 值 计算 问题 就 转化 成 计算 两 个 对 角 块 的 特征 
值 问 题 . Bast QR 迭代 的 理论 基础 就 是 下 面 的 隐 式 Q 定理 . 


定理 4.8 (Implicit Q Theorem) 7% H = QTAQ e R"~*” 是 一 个 不 可 约 上 Hessenberg #24, 其 中 


Q ER?” REXER, N Q 的 第 2 2A nb Q 的 第 一 列 所 唯一 确定 (可 相差 一 个 符号 ). 


证 明 . 设 万 = QT AQ 和 G = V7 AV 都 是 不 可 约 上 Hessenberg 和 矩阵 ,其 中 Q@ = [dg -qnl V = 
[v1, V2,... , Un] AE TEAC FY, H. qı = Ui. 下 面 我 们 只 需 证 明 qi = Vi 或 qi = =U, i 一 2 3, wae g [by Bp 
证 明 


W =V"7Q = diag(1,+41,...,+1). 


i W = [w1, w2, mee ; Wnh H= [hij]. 则 有 
GW = GVTQ = (VTAV)VTQ = V7 AQ = V7 Q(Q? AQ) = V'QH = WH, 
即 


i+1 
Gu; = 3 hyiw;, ¢= 1,2) 32061. 
j=l 


所 以 l 
hiy1iWi+1 = Gwi 一 Wp hjiwj. 
j=l 
AA q = wi, 所 以 wi = [1,0,...,0]7. X G 是 上 Hessenberg 4E M4, 利用 归纳 法 ,我们 可 以 证 
AA wi 的 第 ?二 1 到 第 个 元 素 均 为 0. 所 以 W 是 一 个 上 三 角 和 矩阵 . 又 W EXE, 所 以 
W = diag(1,+1,...,+1). 由 此 , 定理 结论 成 立 . 口 


由 于 Qr 的 其 它 列 都 是 由 Q 的 第 一 列 唯一 确定 (至 多 相差 一 个 符号 ), 所 以 我 们 只 要 找到 一 


个 正 交 和 矩阵 Q; 使 得 其 第 一 列 与 Qr 的 第 一 列 相等 , H. OF AkQk 为 上 Hessenberg 和 矩阵 , 则 由 隐 式 Q 
定理 可 知 Qr = WQ, 其 中 W = diag(1, +1,..., +1). 于 是 


QL AkQr = WT QEARQLW = WT Akp W. 
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MWA YW 5 Arpi 相似 , 且 对 角 线 元 素 相等 ,而 其 它 元 素 也 至 多 相差 一 个 符号 , 所 以 不 会 影响 
Anyi 的 收敛 性 , 即 下 三 角 元 素 收敛 到 0, 对 角 线 元 素 收敛 到 A 的 特征 值 . 因此 在 QR 迭代 算法 中 ， 
我 们 可 以 用 QT An Qe 代替 Qe AnQP. 这 就 是 隐 式 QR 迭代 的 基本 思想 . 

在 实际 计算 中 , 我 们 只 需要 利用 Givens 变换 . 下 面 我 们 举 一 个 例子 ,具体 说 明 如 何 利用 隐 式 Q 
定理 ,由 Ay = 4 得 到 Ad. 


例 4.1 设 A E R” 是 一 个 不 可 约 上 Hessenberg 矩阵 , 即 


D 
far 
| 
D 
II 
O © * 
x 
x 
x 
x 


第 一 步 : 构造 一 个 Givens 变换 


其 第 一 列 [cl $15 0,0. ,0]7 就 是 Ay 一 o1T 的 第 一 列 [a11 — 01, @21,0,... ,0]7 的 单位 化 后 的 
列 问 量 , 这 里 co 是 位 移 . 于 是 有 


GrA= 


So D © * # 
* * 共 
* * * 
* * * 
* * * 
oO © + * * 
* * * 
兴 * * 
* * * 
兴 * * 


| 和 AY 4 GTAG = 


与 Ay 相 比 较 , AM 在 (3, 1) 位 置 上 多 出 一 个 非 零 元 ,我 们 把 它 记 为 “十 ” RZN bulge. 在 
下 面 的 计算 过 程 中 , 我 们 的 目标 就 是 将 其 “ 赶 ” 出 矩阵 , 从 而 得 到 一 个 新 的 上 Hessenberg 4E 
阵 , BN Ap. 


第 二 步 : 为 了 消去 这 个 bulge, 我 们 可 以 构造 Givens 变换 


* 


© 
* 
* 
* 


* 

; 

GT £ G(2,3, 62) = 一 52 C2 | 使 得 GT A® = [0 xok x 
0 


E 


为 了 保持 与 原 矩 阵 的 相似 性 , 需要 再 右 乘 G2, 所 以 


x x * OK OX 
* x 米 OX 


A®) £ GI AWG, = 


* 
* 
* 
* 


O O O * 
+ 
* 
* 
* 


此 时 , bugle 从 (3,1) 位 置 被 “起 ”到 (4, 2) 位 置 . 
第 三 步 : 与 第 二 步 类 似 ,构造 Givens 变换 


1 * Ok k k Ox 
1 KOK k kK Ox 
GT 全 G(3, 4,63) = C3 33 使 得 GTAP =]|0 x * x x 
—S83 C3 0 0 x x x 
1 0 0 0 x x 
这 时 
* * k k x 
kok k k*k x 
A®) 全 GT AOG = 0 xo x* * «|. 
0 0 * * x 
0 0 + x* x 
TÆ, bugle 又 从 (4,2) 位 置 义 被 “起 ”到 (5,3) ME. 
第 四 步 : 再 次 构造 Givens 变换 
1 KOK k k Ox 
1 kK ok k k Ox 
GT £ G(4,5,64) = 1 使 得 GTA4G) 一 |0 x « x x 


现在 , bulge 已 经 被 SE” 出 矩阵 , H. 
AM = CTC! CO! GI dO = AO 


其 中 Qi = G1G2G3G4. 通过 直接 计算 可 知 , Qi 的 第 一 列 为 [e1, $1,0,0, 0)”, BY Ar — oil 的 
第 一 列 的 单位 化 . 根据 隐 式 Q 定理 , Ap 全 AM = QT AQ, 就 是 我 们 所 需要 的 矩阵 . 


如 果 A € R””” 是 上 Hessenberg 矩阵 , 则 使 用 上 面 的 算法 , 带 位 移 QR 迭代 中 每 一 步 的 运算 量 
为 6n? + O(n). 


44.3 位移 的 选取 

在 带 位 移 的 QR 迭代 算法 中 , 位 移 的 选取 非常 重要 . 通常 , 位 移 越 离 特征 值 越 近 , 收敛 速度 就 
越 快 . 由 习题 4.10 可 知 , 如 果 位 移 o 与 某 个 特征 值 非常 接近 , 则 Aln, n) 一 o 就 非常 接近 于 0. 这 
说 明 A, (n,n) 通常 会 首先 收敛 到 4 的 一 个 特征 值 , 所 以 o = A, (n,n) 是 一 个 不 错 的 选择 . 但 是 ， 
如 果 这 个 特征 值 是 复数 , 这 种 位 移 选 取 方法 就 可 能 失效 . 

下 面 我 们 介绍 一 种 针对 共 思 e 复 特征 值 的 位 移 选取 方法 . 

假设 oe CFE A 的 某 个 复 特征 值 和 的 一 个 很 好 的 近似 , 则 其 共 轿 5 也 应 该 是 入 的 一 个 很 好 的 
近似 , 因此 我 们 可 以 考虑 做 双 位 移 , 即 先 以 o 为 位 移 , 然后 再 以 5 为 位 移 , 如 此 不 断交 替 . 这 样 就 有 


A -ol = QiR, 
A2 = RıQı +0], 

A2 -0I = Q2Rə, 
A3 = RoəQ2 +01. 


(4.5) 


容易 验证 
A3 = Q3 A2Q2 = Q3Q7A101Q2 = Q* AQ, 


其 中 Q = QQ 我 们 注意 到 o 可 能 是 复 的 ,所 以 Qi 和 Qo 都 可 能 是 复 和 矩阵 . 但 我 们 却 可 以 选取 
适当 的 Qi 和 Qo, 使 的 @ = Q1 Qo 是 实 正 交 矩阵, 


引 理 4.1 在 双 位 移 QR 迭代 (4.5) F, 我 们 可 以 选取 本 矩阵 Q1 和 Qo 使 得 Q = QQ AREE. 


证 明 . 由 于 
QoRg = A2 — FI = RıQı + (o — ọ)I, 


所 以 


Q1Q2R2Ri = Q1(RiQi + (o — TTR 
= QRiQiki + (o — 0)Q1R1 
= (A, — oI}? + (o — ō) (A1 — ol) 
= A? — (o +a)A, + ool, 
= Aj — 2Re(c) Ay + |o|?I 
eR", 


X QIQ 是 西 和 矩阵 , RoR, 是 上 三 角 和 矩阵 , 故 (Q1Q2)(RoR1) 是 实 和 矩阵 AT — 2Re(o)A + loll = 
(41 一 ol)(A41 一 57) 的 QR 分 解 .所 以 Q1Q2 Fil RoR, 都 可 以 是 实 矩 阵 . 口 


由 这 个 引 理 可 知 , 存在 Qi 和 Qo, 使 的 Q = QQ 是 实 正 交 和 矩阵 , 从 而 A = QT AQ 也 是 实 
和 矩阵. 这 时 , 在 迭代 过 程 (4.5) F, 我 们 无 需 计算 Ao, 可 直接 由 A, 计算 出 43. 具体 计算 还 是 根据 隐 
式 Q 定理 ;我们 只 要 找到 一 个 实 正 交 矩阵 Q, 使 得 其 第 一 列 与 A? — 2Re(o) Ay 二 cl27 的 第 一 列 平 
行 ,并 且 Az = Q7A1Q 是 上 Hessenberg 和 矩阵. 


由 于 A? 一 2Re(o)Ai 十 |o]2 了 的 第 一 列 为 


a?, + aiaz 一 2Re(a)ail + |o]? 
azı (a11 + a22 一 2Re(c)) 
| 21.432 | 


0 (4.6) 


所 以 Q 的 第 一 列 是 上 述 向 量 的 单位 化 . 其 它 过 程 可 以 通过 隐 式 QR 迭代 来 实现 . 但 此 时 的 “bulge” 
是 一 个 2 x 2 的 小 矩阵 . 因此 , 在 双 位 移 隐 式 QR 迭代 过 程 中 , 我 们 需要 使 用 Householder 变换 . 


需要 指出 的 是 , 双 位 移 QR 迭代 算法 中 的 运算 都 是 实数 运算 . 
下 面 我 们 举 一 个 例子 , 具体 说明 如 何在 实数 运算 下 实现 双 位 移 隐 式 QR 迭代 算法 . 


例 42 i A e RË” 是 一 个 不 可 约 上 Hessenberg 矩阵 , 即 


* 
* 
* 
* 
* 
* 


O O oO x 


ce 
j=) 
So © ©: * 
Co Oo 
So * 
* * 
* * 
LU. 


AT 0 


第 一 步 : 构造 一 个 正 交 和 矩阵 H = | 
0 [3x3 


| se Hi € R3x3, 使 得 其 第 一 列 与 向 量 (4.6) 


k x * OK x ij 
* x * x x x 


HTA = + k * k * x 和 AM 4 HT AH, 2 + * k * k*k x 
0 0 x¥ x x x Ps + k k k x 
0 0 0 *k Ox 0 0 0 x x* x 
区 0 0 0 x ,| lo 0 0 0 x i 


与 A, 相 比较 , A® 在 (3,1), (4,1) 和 (4,2) 位 置 上 出 现 bulge. 在 下 面 的 计算 过 程 中 , 我 们 的 
目标 就 是 把 它们 EE? 出 矩阵 , 从 而 得 到 一 个 新 的 上 Hessenberg 矩阵 , BI Ay. 


第 二 步 : 令 瑟 一 | 0 AL 0 |, HP A € R?” 是 对 应 于 A(2 :4,1) AY Householder 
0 0 I3y3 


变换 , 使 得 


* 
* 
* 
* 
* 
* 
* 
* 


x 
和 402) 全 AP AQ H, = j 
xo kx x 0 + 
0 
0 


© 


x 米 OX 


o © o Gx 
oO Do + * 
* 


© 


0 x * 


这 时 , 我 们 将 bugle 向 右 下 角 方 向 E 了 一 个 位 置 . 


yaoxa 0 0 
第 三 步 : 与 第 二 步 类 似 , 令 H = | 0 Hf 0 ire Hs € R? 是 对 应 于 A(3 : 5,2) 
0 0 hx 
的 Householder 变换 , 使 
kok k k Ok * * # 
$ ko ok k x i 4 


S 
So O © # 
+ 
* 
* 
* 


此 时 ,bugle 又 被 向 右 下 角 方向 “ 赶 ”了 一 个 位 置 . 


I 0 ~ 
第 四 步 : S 到 = | oe À | se Hy € R°*? 是 对 应 于 A(4 : 6,3) 的 Householder 变换 ,使 


0 Hi 
得 
* x x x x * x x 
HT49 = |0 * * * 和 AV a pTaOm = |? * 
0 0 * Ok Ok 0 0 
0 0 * Ok Ok 0 0 
0 0 + * x 0 0 


第 五 步 : 此 时 , 只 需 构 造 一 个 Givens 变换 Gs = 


| 
I x 
g G(4,5 sorl 


* 
* 
* 
* 
* 
Æ t 
* 
* 


GFAM = 和 A® £ GPAMG; = 


So 2 o o * 
So O © * 
S 
* 
* 
x 
O = = = 其 
O O © * 
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现在 , bulge 已 经 被 全 部 消除 , H. 

46) = @74Q， 
其 中 Q = 本 HH3HsGs. 通过 直接 计算 可 知 , Q AEA Ay 的 第 一 列 , 也 就 是 向 量 
(4.6) 的 单位 化 . 根据 隐 式 Q 定理 , A® = QT AQ 就 是 双 位 移 QR 迭代 (4.5) 中 的 As. 


最 后 要 考虑 位 移 o 的 具体 选取 问题 . 在 单位 移 QR 迭代 算法 中 , 如 果 4 的 特征 值 都 是 实数 的 
话 ,我 们 可 以 取 op = Ap (n,n). 推广 到 复 共 斩 特征 值 上 ,我 们 可 以 取 A, 的 右 下 角 和 矩阵 
Ay(n—1,n-—1) Az(n— 1,7) 
A;(n,n— 1) A;(n,n) 
M SORE PE A LS. 这 样 选取 的 位 移 就 是 Francis 位 移 . 

一 般 来 说 , 采用 Francis 位 移 的 QR 迭代 会 使 得 迭代 和 矩阵 的 右 下 角 收 敛 到 一 个 上 三 角 和 矩阵 (两 
个 实 特 征 值 ) 或 一 个 2 x 2 的 矩阵 (AIEEE, 而 且 通 常会 有 二 次 渐进 收敛 性 . 在 实际 计算 
中 ,计算 一 个 特征 值 一 般 平 均 只 需 迭 代 两 步 . 

注 : 判断 QR 迭代 算法 是 否 收 敛 主 要 是 看 Ap (n 一 1,n — 2) (或 A(n, n- 1)) 是 否 趋 向 于 0. 

但 需要 指出 的 是 , QR 迭代 并 不 是 对 所 有 和 抢 阵 都 收敛 . 例如 : 

0 | 
A=|1 0 0|. 
0 1 0 
对 于 上 面 的 矩阵 , 采用 Francis 位 移 的 QR 迭代 算法 无 效 . 
另外 , 也 可 以 考虑 多 重 位 移 策略 , 参见 [41]. 


4.4.4 收缩 Deflation 


收缩 (deflation) 是 指 在 隐 式 QR 迭代 过 程 中 , 当 和 矩阵 Ap 的 某 个 下 次 对 角 线 元 素 ai+1; 收敛 
到 0 (或 者 很 小 ) 时 ， 


To be continued ... 
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45 特征 向 量 的 计算 
设 4 的 特征 值 都 是 实 的 , R = QTAQ 是 其 Schur 标准 型 . 若 Ax = Az, 则 Ry = Ay, 其 中 
y = Ql ax Kx = Qy. MARIE 尺 对 应 于 入 的 特征 向 量 y 即 可 . 
因为 五 的 对 角 线 元 素 即 为 4 的 特征 值 , 所 以 可 设 = R(i, i). 假定 是 单 重 特征 值 , 则 方程 
(R 一 AT)y = 0 即 为 
R11 一 和 7 R12 R13 Yı 


0 0 R23 y2| =9, 
0 0 Rs3—Al] | y3 
即 
(Ri — AI )yi + Rizy2 + Risy3 = 0, (4.7) 
Ro3y3 = 0, (4.8) 
(R33 — AT) y3 = 0, (4.9) 


其 中 Ry € REDXG-D, Rag € RO-Dx0-D, 由 于 入 是 单 重 特征 值 , 故 Rag — AM 非 奇异 , 因此 
ys = 0. yo = 14 则 可 得 
Y= (Rii _ AIt Ry. 
因此 计算 特征 向 量 y 只 需求 解 一 个 上 三 角 线 性 方程 组 . 
若 入 是 多 重 特征 值 , 则 计算 方法 类 似 . 但 如 果 4 有 复 特征 值 , 则 需要 利用 实 Schur 标准 型 , 计 
算 较 复杂 . 
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4.6 广义 特征 值 问题 
Ù A, B € R”, ATTE A € C AIER H E x e C” 使 得 
Az = ABr, (4.10) 


则 称 和 为 矩阵 对 (A, B) 的 特征 值 , x 为 相应 的 特征 向 量 . REER (A, B) 的 特征 值 和 特征 向 量 
就 是 广义 特征 值 问题 . 当 B = 了 时 ,广义 特征 值 问 题 就 退化 为 标准 特征 值 问 题 . 当 B 非 奇 异 时 , 广 
义 特征 值 问 题 就 等 价 于 标准 特征 值 问 题 

BAr=dc 或 AB y=, 


其 中 y= Br. 
容易 看 出 ,入 是 (4, B) 的 一 个 特征 值 当日 仅 当 


det(A — AB) = 0. (4.11) 


若 (4.11) 对 所 有 A © C 都 成 立 , MPKEREXT (A, B) 是 奇异 矩阵 对 , 否则 称 为 正则 和 矩阵 对 . 

X B 非 奇异 时 , 特征 方程 (4.11) 是 一 个 n 次 多 项 式 , 因此 恰好 有 nn 个 特征 值 . 当 B 奇异 时 , 特 
征 方程 (4.11) 的 次 数 低 于 n, 因此 方程 的 解 的 个 数 小 于 n. 但 是 , 注意 到 和 A 0 是 (4,B) 的 特征 
EHHA u = +Æ (B, A) 的 特征 值 . 因此 , 当 B 奇异 时 ,1 = 0 是 (B, A) 的 特征 值 , 于 是 我 们 
自然 地 把 入 = 1 = co 当 作 是 (A, B) 的 特征 值 . 所 以 ,广义 特征 值 不 是 分 布 在 C 上 , 而 是 分 布 在 
C U {co} E. 

容易 验证 , A U,V 非 奇 异 , 则 和 矩阵 对 (U* AV, U* BV) 的 特征 值 与 (4, B) 是 一 样 的 . 因此 我 们 
称 这 种 变换 为 矩阵 对 的 等 价 变换 . 如 果 U,V 是 西 和 矩阵 , 则 称 为 西 等 价 变换 . 


4.6.1 广义 Schur 分 解 
广义 Schur 分 解 是 矩阵 对 在 西 等 价 变化 下 的 最 简 形 式 . 
定理 4.9 (广义 Schur 分 解 ) 设 4,B EC”, MAE BE Q, Z e Corr, 使 得 


Q*AZ = R4，Q*BZ = Rp, (4.12) 


其 中 Ry, Rg € C°" ARLE A FEF. sem Feat (A, B) 的 特征 值 为 Ry 和 RB 的 对 角 线 元 素 


的 比值 , 即 


4 RB(i,i) =0 时 ,对 应 的 特征 值 Ni = oo. 


证 明 . 参见 [53]. = 
与 实 Schur 分 解 类 似 , 当 A, B 都 是 实 矩阵 时 , 我 们 有 相应 的 广义 实 Schur 分 解 . 
定理 4.10 (广义 实 Schur 分 解 ) 设 A,B € R”, 则 存在 正 交 矩阵 Q, Z CR”, 使 得 


QTAZ =T4, QTBZ = Ts, 
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| 其 中 Ta, Tp E R?” 都 是 拟 上 三 角 矩 阵 . | 


证 明 . 参见 [53]. 口 


4.6.2 QZ 和 迭代 

QZ 迭代 是 用 于 计算 (A, B) 的 广义 Schur 分 解 的 算法 ,是 QR 算法 的 自然 推广 ,实质 上 可 以 看 
作 是 将 QR 算法 作用 到 和 矩阵 ABO! E. 

详细 算法 可 参见 [25, 53]. 


4.7 


4.1 


4.2 


4.3 


4.4 


4.5 


4.6 


4.7 


4.8 


4.9 
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课 后 习题 
A A | 
设 J=| 0 上 | SC 计算 其 特征 值 对 应 的 特征 向 量 和 左 特 征 向 量 
| ' 
设 4 e Cnxn. 证 明 : 


(人 车 4 是 上 三 角 和 矩阵 ,是 A*A = AA*, Wl 4 必定 是 对 角 和 矩阵 ; 
(2) A 是 正规 矩阵 的 充 要 条 件 是 4 西 相似 于 一 个 对 角 和 矩阵 ; 


(3) BEAL, Xa,,…,》Xn 是 A 的 特征 值 , 则 4 是 正规 矩阵 的 充 要 条 件 是 》`|Xi|2 = |] All. 


i=1 


BEAL A2 E€ C Æ A c C™” 的 两 个 互 不 相同 的 特征 值 ,z e C” 是 Ai 的 特征 向 量 , ye C 是 
Ao 的 左 特征 向 量 . 证 明 : wz = 0. 

设 A e Cmxn, Bec™™ 证明: AB 与 B4 具 有 相同 的 非 零 特 征 值 . 

设 A e Cmxm, B e CnxnC e Cmxn, 考虑 矩阵 方程 


AX -XB=C. 


(1) 证 明 : “4 A 和 B 没 有 共同 特征 值 时 ,和 矩阵 方程 存在 唯一 解 . 
(提示 : 利用 Kronecker 积 , 上 述 矩 阵 方程 等 价 于 (In O A+ BT 8 Im)vec(X) = vec(C), 
其 中 vec(.) 表示 将 矩阵 按 列 排 列 得 到 的 向 量 ) 
(2) 当 和 4 和 B 没 有 共同 特征 值 时 ,给 出 求解 算法 . 
(提示 : 利用 Schur 分 解 ,将 A 和 B 转化 为 相应 的 上 三 角 和 矩阵 ) 
设 AeC"xn 可 对 角 化 ,其 特征 值 为 和 ,Xz,... Ane 
x : eee ‘ —1 2 
证 明 : 2 [Ai|* = rts |S-*AS||¢ . 


aoa 
Ay Ai © Atk 
a > aps Aar 
H 


其 中 Au 都 是 方 阵 . 证 明 : A 的 特征 值 即 为 对 角 块 A11, Aoo,..., Ann 的 特征 值 的 并 . 


i A= QH = VG BARA EE A c Con 的 两 个 QR 分 解 ,其 中 Q, V es cxn 是 西 和 矩阵 ， 
H,G € C” 是 上 三 角 和 矩阵 . 证 明 : 者 存在 ai EC 满足 |aa| = 1, 使 得 qi = ao 则 存在 对 
fA W = diag(ai,a2,...,Qn) E C” WE Jail = 1, 使 得 


Q=VW, H=W'G. 


it H e R"™”" 是 不 可 约 上 Hessenberg 矩阵 , 证明: FEX ERE DD 使 得 DHD 的 次 对 角 
元 素 都 为 1. 若 互 的 次 对 角 元 素 都 小 于 1 或 都 大 于 1, 估计 也 的 谱 条 件数 ka(D). 
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4.10 i H = [hij] € R"™” 是 上 Hessenberg #2, H QR AEN H = QR, HF R = [ry] € R"*” 
ye b= FAKE. 证 明 : 
Tkk > |hk+1,kl, k=1,2,...,n—1. 


因此 , (1) 车 五 不 可 约 , 则 rpx > 0, =1,2,...,n-12)& HERTA, W ran = 0. 
(提示 : 观察 H 的 QR 分 解 过 程 ,借助 Givens 变换 ) 


4.11 证 明定 理 4.6: 
设 4 c R™” 是 不 可 约 上 Hessenberg 矩阵 , 其 QR 分 解 为 4 = QR, M AS RQ 也 是 不 可 约 
上 Hessenberg 矩阵 . 


计算 题 
4.12 用 Householder 变换 ,将 一 个 给 定 的 矩阵 A © R**4 化 为 上 Hessenberg 型 . 
4.13 ZEN Householder 变换 将 矩阵 上 Hessenberg 化 的 算法 , 给 出 具体 的 乘法 运算 次 数 和 加 减 


运算 次 数 . 
4.14 iE RES 
0 0 0 d 
1 0 0 ”一 al 
A=|0 1 : 
0 —an-2 
0 0 1 an] 


的 特征 多 项 式 是 
pA) = X ag gn + -+ A. 


并 利用 这 个 结果 给 出 计算 一 个 多 项 式 所 有 零点 的 实用 算法 . 


实践 题 
4.15 用 Matlab 实现 上 Hessenberg 化 算法 4.7. 
[H, Q]=hessenberg( A) 


第 五 章 


本 章 主 要 讨论 对 称 特 征 值 问题 的 计算 . 
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5.1 “对 称 特征 值 的 算法 综述 
关于 对 称 特征 值 问题 的 常用 算法 有 (直接 法 ): 

© Jacobi JAK: 最 古老 的 方法 , 收敛 速度 较 慢 , 但 精度 较 高 , 且 很 适合 并 行 计算 . 

© Rayleigh FIA: 利用 Rayleigh 商 作 为 位 移 的 反 人 迭代 算法 ,一般 具 有 三 次 收敛 性 . 

。 对 称 QR 迭代 : 计算 对 称 和 矩阵 的 特征 值 和 特征 向 量 的 QR 算法 . 如 果 只 需 计 算 对 称 三 对 角 甜 
阵 的 所 有 特征 值 , 则 该 算法 是 目前 最 快 的 算法 (运算 量 为 O("2)). 如 果 需 要 计算 所 有 的 特征 
值 和 特征 向 量 , 则 运算 量 约 为 6m3, 当 n < 25 时 , 它 是 首选 方法 . 

。 分 而 治之 法 (Divide-and-Conquer) : 计算 对 称 三 对 角 和 矩阵 的 特征 值 和 特征 值 向 量 的 一 种 快速 
算法 . 基本 思想 是 将 大 和 矩阵 分 解 成 小 矩阵 , 然后 利用 弟 推 思想 求 特征 值 . we 运 
HEN O(n), 但 在 实际 应 用 中 , 平均 为 O("23). 如 果 使 用 快速 多 极 子 算法 (FMM) 后 , 理论 
的 运算 量 可 降低 到 O(n log? n), 其 中 wp 是 一 个 较 小 的 整数 , 这 使 得 分 而 治之 算法 成 为 
fE n > 25 的 对 称 三 对 角 和 矩阵 的 特征 值 和 特征 向 量 的 最 快 的 方法 . 

© 对 分 法 和 反 和 迭代 : 对 分 法 主要 用 于 求解 对 称 三 对 角 和 矩阵 在 某 个 区 间 中 的 特征 值 , 运算 量 约 为 

O(kn), 其 中 天 为 所 需 计 算 的 特征 值 的 个 数 . 反 迭 代用 于 计算 特征 向 量 , 在 最 佳 情 况 下 , 即 特征 
值 “ 适 当 分 离 ” 时 , 运算 量 约 为 O(kn), 但 在 最 差 情况 下 , 即 特征 值 成 串 地 紧 靠 在 一 起 时 , 运算 
量 约 为 O(k2n), 而 且 不 能 保证 特征 向 量 的 精度 (虽然 实际 上 它 几 乎 是 精确 的 ). 


IS ET Jacobi ÆRA Rayleigh 商 迭 代 外 ,其余 算法 都 需 Soe Pa SE = 对 角 化 , 这 个 过 程 大 
约 需 花费 on 3 的 工作 量 , 如 果 需 要 计算 特征 向 量 的 话 , 则 运算 量 约 为 È =n! 


本 


5.2 Jacobi 迭代 
该 算法 的 基本 思想 是 通过 一 系列 的 Jacobi 旋转 .将 4 正 交 相似 于 一 个 对 角 和 矩阵 , 即 


AQ =A, ABD = JTA® Jp, k=0,1,.. 


H A) Wiest 3]—7 0 Fs FEE, 其 中 .有 为 正 交 矩阵 . 
Jacobi 旋转 J, 的 构造 
我 们 通常 选取 Jy 为 Givens 变换 , 即 


tk Jk 
| | 
1 
o ik cos Ok — sin Ox | 
Jk = Ges jk, Ok) = | ; 
Jk sin Ox, cos Ox | 
| 
“l 
证 明 . 设 
= a b -ge cos0 一 Sin0 
b c sinf cos0 
则 


GTAG = 


cos —sin0 
sinf cos0 


a b| |cosð —sing 
b c||sing cos 
7 | (c — a) sin 20 十 bcos20 | 


$(c— a)sin20+bcos20 asin? @ + ccos” 6 — bsin 20 


& $(c — a) sin 20 + bcos 20 = 0 BNA 


a 1 — tan? 0 
= cot 20 = 
T 2tan 0 
解 得 e 
sign(T a-c 
tan @ = 一 一 一 一 ， T= : 
[r| +V1+72 2b 


故 引 理 结论 成 立 . 口 


Beds 


为 了 使 得 AM) 收敛 到 一 个 对 角 和 矩阵 , 其 非 对 角 元 素 必须 趋向 于 0. 记 off (A) 为 所 有 非 对 角 元 
素 的 平方 和 , 即 


n 


off(A) = > ay = |All? — > ai, 
iFj i=l 


则 我 们 的 目标 就 是 使 得 off (A) 尽快 趋向 于 0. 


引 理 5.2 设 4= [aijjnxn € RO" 是 对 称 矩阵 , A = JTAJ = [Gijjnxn J = GU, j, 0), 其 中 0 的 
选取 使 得 ij = âji = 0, W 


证 明 . 设 4= [aa , an]. © Å = JTA = [dijjnxn. 由 于 J 了 是 正 交 阵 , 故 
|| JP axll2 lala &=1,2,...,n. 


又 JIT FER ay, 时 ,只 影响 其 第 i, j ARE, h |J all = lailla FM || J? alle = ajyllz 可 得 


~ ~ ~2 ~2 2 2 

ie + a, 一 a + ars, Qij + Qjj = Qij + ay. (5.1) 
同 理 , 由 A = AJ 可 得 

x 和 a2 a2 ~2 >p 


X bi; = ûâji = 0, 故 
m2 1 a2 2 2 2 2 2 2 2 
Qii t Gg; = Gi + ajj + aij + aji = Gy, + Qj; + 2a;;. 


由 于 IT AT 只 影响 4 的 第 i,j 行 和 第 i,j 列 , 故 对 角 线 元 素 中 只 有 an 和 ajy 受 影响 . 所 以 
> a2, = > az, + 2ai,, 
k=1 k=1 


故 


of( 全 一 14 要 一 > 6 入 一 14 性 一 > ake — 20% = off(A) — 20%, 
k=1 k=1 


即 引 理 结论 成 立 . 口 
由 此 可 知 , of(44) 总 是 不 断 减 小 的 . 下 面 给 出 Jacobi 迭代 算法 . 


算法 5.1 Jacobi 迭代 算法 


1: Given a symmetric matrix A € R"*” 


: if eigenvectors are desired then 
set J = I and shift = 1 
: end if 


5: while not converge do 


6: choose an index pair (i, j) such that ai; 4 0 
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7: 7 = (aig — ajj)/(2aij) 

8: t=sign(r)/(lr] +V1+77) %it# tand 

9: e=1/V14+# % 计 算 cosb 

10: s=c:t % 计 算 sinb 

1: A=G(i,j,O)TAG(i,j,0) % KRM KELME AR 
12: if shift = 1 then 

13: J=J.-G(i,j,0) 

14: end if 

15: end while 


该 算法 涉及 到 aig 的 选取 问题 ,一 种 直观 的 选取 方法 就 是 使 得 aij 为 所 有 非 对 角 元 素 中 绝对 
值 最 大 的 一 个 , 于 是 我 们 就 得 到 下 面 的 经 典 Jacobi 算法 . 


算法 5.2 经 典 Jacobi 迭代 算法 


1: Given a symmetric matrix A € R"*” 


2: if eigenvectors are desired then 
3: set J = I and shift = 1 


4: end if 

5: while off(A)> tol do 

6: choose (i, j) such that |a;;| = maxzgz1 |axi| 
7: 7 = (aij — ajj)/(2aij) 

s: t= sign(T)/(Ir| + V1 +72) 

9 e=1/V14+# 

10: s=c-:t 


1: A=G(i,j,0)7 AG(i, j, 0) 
12: if shift = 1 then 

13: J=J.-G(i,j,0) 

14: end if 

15: end while 


可 以 证 明 , 经 典 Jacobi 算法 至 少 是 线性 收敛 的 . 
定理 5.1 对 于 经 典 Jacobi 算法 5.2, 有 


off (ART) < (1 = 


hk PERE, 有 


eee 
2 
证 明 . 由 于 在 经 典 Jacobi HE 5.2 中 ,|aij| = maxg zi apil BE O(A) < n(n + 1) (a) , BẸ 
n(n — 1) 
ak 


2 1 
Ha) > off(A), N= 


所 以 由 引 理 5.2 可 知 


事实 上 , 经 典 Jacobi 算法 最 终 是 二 次 局 部 收敛 的 . 


定理 5.2 经 典 Jacobi 算法 5.2 是 N 步 局 部 二 次 收敛 的 , 即 对 足够 大 的 有 有 


off (A) = Of off?(4)). 


由 于 在 经 典 Jacobi 算法 中 , 每 一 步 都 要 寻找 绝对 值 最 大 的 非 对 角 元 , 比较 费时 , 因此 它 并 不 实 
用 . 我 们 可 以 通过 逐 行 扫描 来 选取 (i, j), 这 就 是 循环 Jacobi 迭代 算法 . 


算法 5.3 循环 Jacobi 迭代 算法 ( 逐 行 扫描 ) 


1: Given a symmetric matrix A € R"*” 


2: if eigenvectors are desired then 
3: set J = I and shift = 1 

4: end if 

5: while off(A)> tol do 

6 for i = 1 to n — 1 do 

7: for j = i + 1 ton do 

8 if a;; # 0 then 

9 T = (aii — ajj) /(2aig) 


i: t = sign(r)/(|7| + v1 +7?) 


11: e=1/V1+# 

12: s=c:t 

13: A= G(i, j, 0T AG(i, j, 9) 
14: if shift = 1 then 

15: J=J.-G(i,j,0) 

16: end if 

17: end if 

18: end for 

19: end for 

20: end while 


循环 Jacobi 也 具有 局 部 二 次 收敛 性 [43, page 270]. 
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5.3 Rayleigh AAR 


ERARA P, zx; 的 Rayleigh 商 是 特征 值 A; 的 近似 , 故我 们 把 它 作 为 位 移 , 于 是 就 得 到 下 
面 的 Rayleigh RIARI. 


算法 5.4 Rayleigh 商 迭 代 


: Given an initial guess xo with || zollz = 1 


: compute the Rayleigh quotient po = x) Axo 
: setz = 1 

: while not converge do 

o = Pi-1 

yi = (A — oI)“ tzi 

zi = yi/|lyill2 

pi = rT Azi 

i 二 7 十 1 

: end while 


$00 Oa. ON OY Se 


jt 
j=) 


KF Rayleigh 商 迭 代 的 收敛 性 , 我们 有 下 面 的 结论 . 
定理 5.3 如 果 特 征 值 是 单 重 的 , 则 当 误 差 足 够 小 时 , Rayleigh 商 迭 代 中 每 步 兴 代 所 得 的 正确 数字 


的 位 数 增 至 三 们 , BP Rayleigh 商 和 迭代 是 局 部 三 次 收敛 的 . 


WEAR. it A = QAQT, © ĉi = QT zi WIE Rayleigh 商 迭 代 算法 中 


=Q (A — pi-11) r; = (QT AQ — pis) hii = (A — iil) 4i-1, 


即 ,“ 以 初始 向 量 zo 对 4 做 Rayleigh 商 迭 代 ” 等 价 于 “以 初始 向 量 Zo 对 A 做 Rayleigh 商 迭 代 ” 即 
它们 有 相同 的 收敛 性 . 因此 , 不 失 一 般 性 , 我们 可 以 假定 A = A 为 对 角 阵 , 此 时 A 的 特征 向 量 为 e; 


T= 2a Ti 

我 们 假定 r: KAE e1. & di = xi — e1, M ||dill2 — 0. 为 了 证 明 算法 具有 局 部 三 次 收敛 ,我 们 
需要 证 明 : 当 e; = ||di||z 充分 小 时 ,有 citi = ditillz = llzi+1 一 eillz = O(e?). 

我 们 注意 到 

L= rl ri = (el 十 di)” (e1 + di) 二 1 十 2d;(1) + d? dj 二 1 十 2d;(1) + oe 
其 中 q;(1) 表示 di 的 第 一 个 元 素 . 故 dj (1) = —e?/2. 所 以 
pi = at An; = (el 十 di7A(el 十 di) = eT Ae 十 2ef Ad; 十 d? Ad; 全 AL 一 n, 

HP n = —(2ef Ad; + dP Ad;) = —2A1d;(1) — dP Ad; = Me? — d? Adi. 于 是 


In| < Aile? + [Alla :laill < 2I|All2 ez. 


由 Rayleigh 商 算 法 5.4 可 知 
yi+ı = (A— pil) t z; 
ofal) l2 zin) 17 
-| a a] 
O fltdi(1) di(2) di(n) 17 
| Mp | 
! —e2/2 di(2) d;(n) | 
n Aas An — à+ 
_1l-e/2 | d;(2)n di(n)n | 
7 “(1-e/DN A+D (1 — €7/2)(An — A1 + 1) 
= x Se? -(e1 4 di+1). 
其 中 
d= fig a aa | 
"(1 = €7/2)(2 — Ar +)? (1 = €?/2) An — Ar +) 


因为 Ai 是 单 重 特征 值 , 所 以 
gap(A;, A) 全 vps —Ai| > 0, 
故 当 ci 足够 小 时 ， 
[Ay — A + | > JA; — Ai — Il > gapa, A) — [nl > gap(r, A) — 2I|Alla €? > 0. 
于 是 我 们 有 
| cl Inl 2 2||All e? 
1 — €?/2)(gap(A1, A) — |n|) 7 (1 — €?/2)(gap(A1, A) — Inl) 


lèl < 
BM [dial], = 03). 又 


Lae slr ede 1+ fl, 


即 | 
:tal fn 
由 于 
ms e el 十 di+1 
"oak fardal, 
所 以 


[let el) ate, 


jeri, 


[dirillz = l|zi+1 — eillz = 


„Blerta enl, 


feral, 


.5-8 . 


d 


å | 
IEE le 
jer + den], 


又 | diss], = O(e3), en = | = O(e?). E 


5.4 对 称 QR ER 
将 带 位 移 的 隐 式 QR 算法 运用 到 对 称 和 矩阵 , 就 得 到 对 称 QR 迭代 算法 . 
基本 步骤 
1. 对 称 三 对 角 化 : 利用 Householder 变换 , 将 4 化 为 对 称 三 对 角 和 矩阵 , 即 计算 正 交 和 矩阵 Q 使 得 
T = QAQT 为 对 称 三 对 角 和 矩阵 ; 
2. 使 用 带 ( 单 ) 位 移 的 隐 式 QR 迭代 算法 计算 开 的 特征 值 与 特征 值 向 量 ; 
3. 计算 4 的 特征 向 量 . 
对 称 三 对 角 化 

任何 一 个 对 称 和 矩阵 A © RO" 都 可 以 通过 正 交 变换 转化 成 一 个 对 称 三 对 角 和 矩阵 T. 这 个 过 程 
可 以 通过 Householder 变换 来 实现 , 也 可 以 通过 Givens 变换 来 实现 . 

如 果 A 是 一 个 稠密 和 矩阵, 则 Givens 变换 的 总 运算 量 大 约 是 Householder 变换 的 两 倍 , 因此 建 
议 使 用 Householder 变换 . 

如 果 A 是 带 状 矩阵 , 假设 带宽 为 2N 十 1( 即 上 带宽 和 下 带宽 都 是 入), 且 NN < n. 通过 Givens 
变换 进行 对 称 三 对 角 化 时 , 执行 次 序 是 首先 将 第 N 条 次 对 角 线 ( 即 离 主 对 角 线 最 远 ) 上 的 元 素 化 
为 0, 然后 再 将 N — 1 条 次 对 角 线 上 的 元 素 化 为 0, 依 此 类 推 , 最 后 将 第 2 条 次 对 角 线 上 的 元 素 化 
为 0. 在 消去 第 条 次 对 角 线 时 , 是 按 行 进行 的 , 即 消去 的 元 素 的 下 标 依次 为 

(k+1,1), (k+2,2), ..., (n,n—k). 


在 消去 元 素 (k + i, i) (Æ Givens 变换 ) 的 同时 也 消去 元 素 (i,k + i) ( 右 乘 同一 Givens 变换 的 转 
置 ). 在 消去 元 素 (k 十 i,i) 时 ,使 用 的 Givens BHE G(k +i—1,k+i%,0). 这 样 ,在 消去 元 素 (k+ i, i) 
FI (i,k + i) JEJ, SÆ (2k 十 i 十 i 一 1) 和 (kk 十 i 一 1,2k 十 让 位 置 上 出 现 非 零 元 . 我 们 可 以 再 
通过 Givens 变换 G(2k 十 i,2k 十 i 一 1,9) 将 它们 化 为 0, 但 此 时 会 在 
To be continued ... 
参见 蒋 < 矩阵 计算 > 
对 称 QR 迭代 算法 的 运算 量 
三 对 角 化 需要 4n3/3 + O(n), 如 果 需 要 计算 特征 向 量 , 则 运算 量 为 8n3/3 + O(n2); 
对 工 做 带 位 移 的 隐 式 QR IER, 每 次 迭代 的 运算 量 为 6n; 
计算 工 的 特征 值 时 ,假定 每 个 平均 迭代 2 步 , 则 计算 所 有 特征 值 的 运算 量 为 12m2; 
若 要 计算 人 的 所 有 特征 值 和 特征 向 量 , 则 运算 量 为 6n3 + O(n?) 
若 只 要 计算 A 的 所 有 特征 值 , 运算 量 为 4n3/3 + O(n”); 
若 需 要 计算 4 的 所 有 的 特征 值 和 特征 向 量 , 则 运算 量 为 26n3/3 + O(n2); 
位 移 的 选取 一 Wilkinson 位 移 
位 移 的 好 坏 直接 影响 到 算法 的 收敛 速度 . 我 们 可 以 通过 下 面 的 方式 来 选取 位 移 . 设 
(k) p(k) 
ay bì | 
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一 种 简单 的 位 移 选 取 策略 就 是 令 ok = a), 事实 上 , at 就 是 收敛 到 特征 向 量 的 迭代 向 量 的 

Rayleigh 商 . 这 种 位 移 选取 方法 几乎 对 所 有 的 和 矩阵 都 有 三 次 渐进 收敛 速度 , 但 也 存在 不 收敛 的 例 

T, 故我 们 需要 对 其 做 一 些 改进 . 

哈 如 果 在 QR 迭代 算法 中 使 用 位 移 ok = al, 而 在 Rayleigh 商 迭 代 算法 5.4 中 取 zo = en = 
[0,...,0,1]7, 则 利用 QR 和 迭代 与 反 和 迭代 之 间 的 关系 可 以 证 明 : QR 和 迭代 算法 中 的 o 与 
Rayleigh 商 迭 代 算法 中 的 Pk 相等 . 


k) (k) 
一 种 有 效 的 位 移 是 Wilkinson 位 移 , 即 取 ka k 的 最 接近 a 的 特征 值 作为 位 移 . 通 
1 


An 
过 计算 可 得 Wilkinson 位 移 为 


2 1 
o = a + ô —sign(6) & + (b ai ， 其 中 5= 5(al®), — al). 


y= 


出 于 稳定 性 方面 的 考虑 , 我 们 通常 用 下 面 的 计算 公式 


(y 


-. 
6 + sign(5)4/ 82 + (1%, ) 


o= all 


定理 5.4 采用 Wilkinson 位 移 的 QR 迭代 是 整体 收敛 的 , 且 至 少 是 线性 收敛 . 事实 上 , 几乎 对 所 有 


的 矩阵 都 是 渐进 三 次 收 你 的 . 


证 明 . 见 参考 文献 [16, 29]. 


例 5.1 带 Wilkinson 位 移 的 隐 式 QR 迭代 算法 收敛 性 演示 
(JL [9, page 214]), 相应 的 Matlab 代码 为 TriQR.m 


5.5 分 而 治之 (Divide-and-Conquer) 

分 而 治之 算法 在 1981 年 由 Cuppen [8] 首次 提出 ,但 直到 1995 年 才 出 现 稳定 的 实现 方式 [19]. 
该 算法 是 目前 计算 维 数 大 于 25 的 矩阵 的 所 有 特征 值 和 特征 向 量 的 最 快 算法 . 下 面 我 们 介绍 该 算 
法 . 

考虑 不 可 约 对称 三 对 角 和 矩阵 


Qm_1 Omi 


| 
bm_1 am bm | 
| 


| 
| a 
a, ob, | 
bho a 
yt bmi | 
= bm—1 Am 一 bin | | 


0 | TS 
其 中 w= [0,...,0,1,1,0,..., 07. BE Ti A T WME CATR YS, BIT) = Q1A1Q1， 
T = QoA2QE, 下 面 考 虑 人 的 特征 值 分 解 . 

首先 介绍 一 个 引 理 . 


引 理 5.3 设 z,y € R”, N] det(I + zy?) =14+y" 2. 


WEAR. 见习 题 5.3. 口 
我 们 首先 考虑 工 WRIS Ti M T 的 特征 值 之 间 的 关系 . 
T= ta A + bmvve 
0 Ts 
T 
= Q1A1Q1 n P 十 DUO 
0 Q2A2Q5 


Ay, 0 


[eo] [QF 的 最 后 一 列 
0 Q2 Ql 的 第 一 列 | 
令 a= bm» D= diag(Al, Az) = diag(d1, do, era dn) 并 假设 dy > də > sh = dn. 则 T 的 特征 值 与 
D + auu” 的 特征 值 相同 . 
下 面 计算 D + auut 的 特征 值 . 设 入 是 D + auut 的 一 个 特征 值 ,车 D — AT 非 奇 异 , 则 


det(D + auu? — AT) = det(D — AI) - det(I + a(D — AD) tuu"). 


故 det(I + a(D — AI) tuu?) = 0. 又 由 引 理 5.3 可 知 


n 2 
det(I + a(D -A tuu?) =1 +ou? (D-M) u =1+a5> tS 
i=1 di — À 


FA). 


BCR 4 的 特征 值 等 价 于 求 特征 方程 (secular equation) f(A) = 0 的 根 . 由 于 
n 2 
My) — “i 
FA) =a)" (di — A)? 


=i 


当 所 有 的 di 都 互 不 相同 , 且 所 有 的 wi 都 不 为 零 时 , f(A) E A A di 处 都 是 严格 单调 的 ( 见 下 图 ). 


T 
1 
1 
1 
1 
1 
1 
1 
1 
1 


1 
1 
i 
i 
i 
i 
i 
i 
Pa 
1 


1 1 
i I 
i I 
1 1 
1 1 
1 1 
-4L 1 1 
1 1 
1 1 
1 4 


-1 0 5 6 


E 5.1 f(A) = 1+0.5 (1h + zh + zh + h) 的 图 像 


所 以 f(A) 在 每 个 区 间 (di, di1) 内 都 有 一 个 根 , 共 n 一 1 个 , 男 一 个 根 在 (di, 00) ( a > 0) 或 
(—00, dn) (Æ a < 0) P. EF A) 在 每 个 区 间 (di, di) 内 光滑 且 严 格 单调 递增 (a > 0) 或 递减 
(a < 0), 所 以 在 实际 计算 中 , 可 以 使 用 对 分 法 , 牛顿 法 及 其 变形 , 或 有 理 逼 近 等 算法 来 求解 . 通常 都 
能 很 快 收敛 , 一 般 只 需 和 迭代 几 步 即 可 . 因此 ,计算 一 个 特征 值 的 运算 量 约 为 O(n), 计 算 D + auut 
的 所 有 特征 值 的 运算 量 约 为 O(n2). 

当 所 有 特征 值 计算 出 来 后 , 我 们 可 以 利用 下 面 的 引 理 来 计算 特征 向 量 . 


引 理 5.4 KDCR™"ANABE u c R”, ACR #ALXLD+ au? 的 特征 值 , 则 (D -Atu 
是 其 对 应 的 特征 向 量 , 且 运算 量 为 O(n). 


证 明 . 由 引 理 5.3 可 知 


0 = det(D + auu? — AI) = det(D — XI) - det (I+a(D—- AI) tuu") 
= det(D — XI): (1 + au” (D — AT) tu), 


ik 1+ au? (D — Mtu = 0, BH au? (D — Atu = 一 1. 直接 计算 可 得 


(D+ auu” )((D —AD wu) = (D -AI + AI + auu?)(D — AI) tu 
=u +A(D — AI) tu + (au? (D — AI) tu)u 
=u+A(D-AI u-u 
= MD — AI) tu, 


即 引 理 结论 成 立 . 口 


E 利用 公式 (D 一 AT) iw 计算 所 有 特征 向 量 的 运算 量 为 O(n?) 但 这 样 计算 是 数值 不 稳定 的 . | 


算法 5.5 计算 对 称 三 对 角 短 阵 的 特征 值 和 特征 向 量 的 分 而 治之 法 (函数 形式 ) 
1: function [Q, A] = dc_eig(T) % T = QAQT 
2: if T is of 1 x 1 then 
3: Q=1,A=T 
4 


return 
5: end if 
T 0 
6: form T = |! 十 DUO 
了 2 


7: [Q1; Ai] = dc_eig(71) 

8: [Q2, A2] = dc_eig(T>) 

9: form D + auu? from Ay, Ao, Q1, Q2 
10: compute the eigenvalues A and eigenvectors Q of D + auu 


Qı an 


T 


0 a 


11: compute the eigenvectors of T with Q = | 


12: end 


下 面 我 们 详细 讨论 分 而 治之 算法 的 几 个 细节 问题 : 
(1) 如 何 减 小 运算 量 ; 
(2) 如 何 求解 特征 方程 f(A) = 05 
(3) 如 何 稳定 地 计算 特征 向 量 . 


(1) 如 何 减 小 运算 量 一 收缩 技巧 (deflation) 


分 而 治之 算法 的 计算 复杂 性 分 析 如 下 : H t(n) 表示 对 n 阶 矩 阵 调 用 函数 dc_eig 的 运算 量 ， 
则 


t(n) = 2t(n/2) 递归 调用 dc_eig 两 次 
+ O(n?) 计算 D + auu? 的 特征 值 和 特征 向 量 
十 c.m3 计算 Q. 


OS 如 果 计算 Q 时 使 用 的 是 稠密 和 矩阵 乘法 , 则 c = 2; 
车 不 计 O(n) 项 , 则 由 递归 公式 tp) = 2t(n/2) + c- n? 可 得 t(n) ~ c- 4n3/3. 


但 事实 上 , 由 于 收缩 (deflation) 现象 的 存在 , 常数 c 通 常 比 1 小 得 多 . 


在 前 面 的 算法 描述 过 程 中 , 我 们 假定 di 互 不 相等 且 wi 不 能 为 零 . 事实 上 , 容易 证 明 当 
di = dizi 或 wi = OM, di BUA D + auu? 的 特征 值 ,这 种 现象 我 们 称 为 收缩 (deflation) . 在 实际 计 
SEIN, 当 di 一 dipi BR Jui) 小 于 一 个 给 定 的 阔 值 时 ,我们 就 近似 认为 di 为 D + auu? 的 特征 值 , 即 出 
现 收缩 现象 . 


在 实际 计算 中 , 收缩 现象 会 经 常 发 生 , 而 且 非 常 频繁 ,所 以 我 们 可 以 而 且 应 该 利用 这 种 优点 加 
快 分 而 治之 算法 的 速度 [8, 33]. 


由 于 主要 的 计算 量 集中 在 计算 Q, 即 算法 最 后 一 步 的 矩阵 乘积 . 如 果 u = 0, 则 d; 为 特征 
值 , 其 对 应 的 特征 向 量 为 en 即 Q 的 第 i 列 为 6;, 故 计算 Q 的 第 i 列 时 不 需要 做 任何 的 计算 . 当 
di = di+1 时 , 也 存在 一 个 类 似 的 简化 . 


(2) 特征 方程 求解 


通常 我 们 可 以 使 用 牛顿 法 来 计算 特征 方程 f(A) = 0 的 解 . 


di A dizi H wi 关 0 时 ,我 们 用 牛顿 法 计算 f(A) FE (ditt, di) 中 的 零点 Ai. WR [us| 小 于 给 
ERS BAER, 我 们 可 直接 将 d; 作为 特征 值 Xi 的 一 个 近似 . 但 当 wi 很 小 ( 却 大 于 给 定 的 国 值 ) 时 , 此 
时 f(A) 在 区 间 [di+1, di] 中 的 大 部 分 处 的 斜率 几乎 为 0 ( 见 图 5.2). 这 时 , 如 果 任 取 [ws di] 中 的 
一 个 点 作为 迭代 初始 点 , 经 郭 一 次 牛顿 迭代 后 , 迭代 解 可 能 会 跑 到 区 间 [dig a, di] 的 外 面 , 造成 不 收 


oa=0.005 


-4 


E 0 1 2 3 4 5 6 


图 52 f(A) = 1 + 0.005 (Fy + zh + zh + hy) 的 图 像 


这 时 需要 采用 修正 的 牛顿 法 . 假设 我 们 已 经 计算 出 A 的 一 个 近似 和 下 面 我 们 需要 从 和 出 发 ， 
利用 牛顿 迭代 计算 下 一 个 近似 , 直至 收敛 . 我 们 知道 牛顿 法 的 基本 原理 是 使 用 f(A) 在 点 和 的 切线 
来 近似 f (A), 并 将 切线 的 零点 作为 下 一 个 近似 , 即 用 直线 来 近似 曲线 FA). 

由 于 wi 很 小 时 , 这 种 近似 方法 会 出 现 问题 , 所 以 我 们 不 能 使 用 直线 来 近似 f (A). 这 时 , 我 们 可 
以 寻找 其 它 简单 函数 A (A) 来 近似 f(A), 然后 用 h() 的 零点 作为 f(A) 零点 的 近似 , FFA TEAR 
E, 直至 收敛 ( 即 更 换 迭 代 函 数 ). 

当然 , (入) 需要 满足 一 定 的 要 求 : (1) 必须 容易 构造 ; (2) 其 零点 容易 计算 ; (3) 尽 可 能 与 fA) 相 


ir. 
下 面 给 出 构造 MA) 的 一 种 方法 . 因为 d; 和 dina 是 f(A) 的 奇 点 , 所 以 我 们 令 
a |， & 
N= tat 
其 中 c1, co, c3 为 参数 . 显然 , h( 和 ) 的 零点 很 容易 计算 (与 Newton 法 相差 无 几 ). 在 选取 这 些 参数 时 ， 


要 使 得 h( 和 ) 在 入 附近 尽 可 能 地 接近 f(A). 记 


ur : ur = ur 
sito) =E=] ee: > 一 -| 全 1+a 人 (但 亚 2( 入 ))， 
to (Far 5) PAUMARES) 


=i+1 


当 和 AE (di1, di) 时 , W1 (A) 为 正 项 的 和 , Wo) 为 负 项 的 和 ,因此 它们 都 可 以 较 精 确 地 计算 . 但 如 果 
把 它们 加 在 一 起 时 可 能 会 引起 对 消 , 从 而 失去 相对 精度 . 因此 我 们 将 (A) 写成 


h(A) = 1 + a(hi(d) + ha(d)), 


其 中 
cı 


ZS 


MOA +ê, hz(N) = F 


满足 


ha(N) = VA), Ag(A) = WN). 


BN hy (A) 和 ho( 和 ) 分 别 在 点 和 与 亚 1(A) 和 更 ?(A) 相 切 . 这 在 数值 插值 中 是 常见 的 条 件 . 容易 计算 
可 得 


r= HA- & = nA- H(A) — 3), a 
ca = W5(A)(dig1 — A)?, 6 = Wa(A) — WS (A) (digs — A). 
所 以 , 最 后 取 
h(A) = 1+ a(@ + @) ta (2 x+ i z) l (5.4) 


这 就 是 迭代 函数 . 


算法 5.6 修正 的 Newton 算法 
: setk=0 


: choose an initial guess Ap € [di+1, di] 


: while not convergence do 


settk=k+1 
compute the solution A, of h(A) defined by (5.4) 


1 
2 
3 
4: let \ = Ax and compute c1, C2, C1, co from (5.3) 
5 
6 
7: end while 


3) 计算 特征 向 量 的 稳定 算法 


AE Dt auu? 的 特征 值 , 则 根据 引 理 5.4, 可 利用 公式 (D 一 入 了 -iw 来 计算 其 对 应 的 特征 
向 量 . 但 遗憾 的 是 , 当 相 邻 的 两 个 特征 值 非常 接近 时 , 这 个 公式 可 能 不 稳定 . 即 当 A; 与 和 41 非常 接 
近 时 , 它们 都 靠近 dipi (这 里 假定 Ai € (dizi, dh) 在 计算 digi — Ai FI dipi 一 入 +1 时 会 存在 对 消 ， 
这 就 可 能 损失 有 效 数 字 , 产生 较 大 的 相对 误差 , 从 而 导致 (D - Atu 5 (D — Nig Du WE 
是 不 准确 的 , 正 交 性 也 会 失去 . 下 面 的 定理 可 以 解决 这 个 问题 . 详情 参见 [17, 48]. 


定理 5.5 (Löwner) 3t á D = diag(di, d2,..., dn) RA di > dp >--- > dn. HAL > A2 > 
…. > An 满足 交错 性 质 


和 1>dl>A》X>d>:…… > An > dn, 


WHEN AS â, BA A2... An ED=D+ 00) 的 精确 特征 值 , 其 中 刁 的 分 量 由 下 面 的 


公式 给 出 


jaj = ( M Ox — 4) 1/2 
i hae kżi (dk — di) . 


证 明 . 由 引 理 5.3 可 知 D 的 特征 多 项 式 为 
det(D — AI) = det(D — AI + titi") 
= det(D — XI) - det(I + (D — AD) tT) 
= det(D — AI) - (1 + a7 (D — AT) t) 


k=1 k=1 

B nm nm ù? n 

= (IT. -») (vs > z5) + |] (an — Aya; 
k=1 k=1,k4i k=1 


又 Xi Ag)... An 是 万 的 特征 值 , 故 


det(D — AI) = [ [Ar - A). 
k=1 
Hx A = di, 由 det(D — AT) 的 两 个 表达 式 可 得 
[Te - di)? = [TOs =- di), 


k=1 k=1 


a= [li (Ar — di) . 
Tes ki (dx 一 di) 


由 交错 性 质 可 知 , 上 式 右 边 是 正 的 , 故 定理 结论 成 立 . 口 
下 面 给 出 计算 矩阵 D + ww? 的 特征 值 和 特征 向 量 的 稳定 算法 . 


算法 5.7 HHE D + uut 的 特征 值 和 特征 向 量 的 稳定 算 ; 
1: Compute the eigenvalues \1, A2,..., An by solving f(A) = 0 


2: Compute ù; by Lowner Theorem so that 1, \2,..., An are the exact eigenvalues of D + titi” 


3: Compute the eigenvectors of D + wai? by Lemma 5.4 


通过 分 析 可 以 说 明 上 述 算法 计算 出 来 的 DD 十 ti? 的 特征 值 和 特征 值 向 量 是 非常 精确 的 , 它们 
SIRERE D + wa 的 特征 值 和 特征 向 量 非常 相近 ,这 意味 着 该 算法 是 数值 稳定 的 
箭 型 分 而 治之 法 

分 而 治之 算法 于 1981 年 被 首次 提出 , 但 直到 1995 年 才 由 Gu 和 Eisenstat 给 出 了 一 种 快速 稳 
定 的 实现 方式 , 称 为 箭 型 分 而 治之 法 (Arrowhead Divide-and-Conquer , ADC). 他 们 做 了 大 量 的 数 
值 试验 , 在 试验 中 , 当 和 矩阵 规模 不 超过 6 时 , 就 采用 对 称 QR 迭代 来 计算 特征 值 和 特征 向 量 . 在 对 特 
征 方程 求解 时 , 他 们 采用 的 是 修正 的 有 理 逼 近 法 . 数值 结果 表明 , ADC 算法 的 计算 精度 可 以 与 其 
他 算法 媲美 , 而 计算 速度 通常 比 对 称 QR 迭代 快 5 至 10 倍 , EE Cuppen 的 分 而 治之 法 快 2 倍 . 详细 
介绍 见 [18, 19]. 
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5.6 “对 分 法 和 逆 和 迭代 (Bisection and Inverse Iteration) 
对 分 法 的 基本 思想 是 利用 惯性 定理 来 计算 所 需 的 部 分 特征 值 . 
定义 5.1 RA ARES, 则 其 惯性 定义 为 


Inertia(A) = (v,¢,7) 


其 中 vv, Gr 分别 表 示 A 的 负 特征 值 , 零 特 征 值 和 正 特征 值 的 个 数 . 


定理 5.6 (Sylvester 惯性 定理 ) 设 A c R” 是 对 称 和 矩阵 , X CRASH, M XT 了 TAX 与 4 有 
相同 的 惯性 . 


利用 LU 分 解 可 得 4 — 21 = LDL7, 其 中 工 为 非 奇 异 下 三 角 和 矩阵 , D 为 对 角 阵 , 则 
Inertia(A — zI) = Inertia(D). 


HF D EXT AKER, 所 以 Inertia(D) 很 容易 计算 . 
K a € 民 , 记 Negcount(4,a) 为 小 于 a 的 4 的 特征 值 的 个 数 , 即 


Negcount(A,a) = #(A(A) < a). 
Way < ag, Ill) 4 在 区 间 fay, a2) 中 的 特征 值 个 数 为 


Negcount(A, a2) — Negcount(A, a1). 


WR az 一 aa < tol (其 中 tol < 1 为 事先 给 定 的 国 值 ), H 4 在 [aa a2) 中 有 特征 值 , 则 我 们 可 将 
lai, a2) 中 的 任意 一 个 值 作为 4 在 该 区 间 中 的 特征 值 的 近似 . 
由 此 我 们 可 以 给 出 下 面 的 对 分 法 . 


算法 5.8 计算 4 在 [a, 世 中 的 所 有 特征 值 


1: Let tol be a given threshold 

2: compute ng = Negcount(A, a) 

3: compute np = Negcount(A, b) 

4: if ng = ny then 

5 return % 此 时 [a,b) 中 没有 4 的 特征 值 

6: end if 

7: put (a, Nna, b, ny) onto worklist 

8: %worklist 中 的 元 素 是 “四 元 素 对 ”, 即 由 四 个 数组 成 的 数 对 
9: while worklist not empty do 

10: remove (low, Niow, UP, Nup) from the worklist 

11:  % (low, Niow, UP, Nup) 是 worklist 中 的 任意 一 个 元 素 
12: if (up — low) < tol then 

13: print "There are nx, 一 Niow eigenvalues in [low, up)” 
14: else 
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15: compute mid = (low + up)/2 
16: compute Nniq = Negcount(A, mid) 
17: if (Nmid > Now) then 
18: put (low, Niow, Mid, nmid) onto worklist 
19: end if 
20: if (Nup > Nmia) then 
21: put (mid, Nmid, UP, Nup) onto worklist 
22: end if 
23: end if 
24: end while 
显然 , 对 分 法 的 主要 运算 量 集中 在 计算 Negcount(A, z). WR A 是 稠密 的 , 则 可 用 选 主 元 的 对 


BK Gauss 消 元 法 来 计算 , 但 此 时 的 运算 量 为 Oln’), 显然 不 实用 . 但 如 果 事 先 将 4 转化 成 对 称 三 对 
角 和 矩阵 ,计算 A 一 zI WY LDLT 分 解 非常 简单 : 
Ql 一 之 by 


by 


A-zl= 


bn—1 An — Z 
_ hi 7 | aA EJ k 4 prt. 
eel | 
利用 待定 系数 法 , 可 以 得 到 下 面 的 递 推 公式 


dı 一 al 一 2 di = (a; — z) — 一 4 2 (5.5) 


用 上 面 的 公式 计算 的 运算 量 约 为 4n. 
注意 这 里 没有 选 主 元 , 但 针对 对 称 三 对 角 和 矩阵 , 该 算法 是 非常 稳定 的 , 即使 当 d; 有 可 能 很 小 
时 , 算法 依然 很 稳定 . 
定理 5.7 利用 公式 (5.5) 计算 所 得 的 di; 与 精确 计算 AM di 有 相同 的 符号 , 故 有 相同 的 惯性 . 
里 4 与 4 非常 接近 , 即 


A(i,i)=a;, ÅÂli,i+1)= b:i(1 + €i), 
其 中 |ei| < 2.5e 十 O(ae?), RBM c AMBRE. 


证 明 . 略 ( 见 教材 第 194 页 ). O 


E  。 由 于 单独 调用 一 次 Negcount 的 运算 量 为 An, 故 计算 天 个 特征 值 的 总 运算 量 约 为 
O(kn); 
。 当 特征 值 计算 出 来 后 , RITA LEHA iM BTR RHE TT ARE Dd E. À 
需 迭 代 1 至 2 次 即 可 ,由 于 A BSA ME, 故 计算 每 个 特征 向 量 的 运算 量 为 O(n); 
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e 当 特 征 值 紧 靠 在 一 起 时 , 计算 出 来 的 特征 向 量 可 能 会 失去 正 交 性 , 此 时 需要 进行 再 正 
交 化 , 可 通过 MGS 的 QR 分 解 来 实现 . 


5.7 “奇异 值 分 解 
奇异 值 分 解 (SVD) 具有 十 分 广泛 的 应 用 背景 , 因此 , 如 何 更 好 更 快 地 计算 一 个 给 定 和 矩阵 的 
SVD 是 科学 与 工程 计算 领域 中 的 一 个 热门 研究 课题 , 吸引 了 众多 专家 进行 这 方面 的 研究 ,也 涌现 
出 了 许多 奇妙 的 方法 . 本 章 主 要 介绍 计算 SVD 的 常用 算法 . 
T 
对 任意 矩阵 A c Rmx", Hae SAEK ATA, AAT 和 | 0 4 | 的 特征 值 是 是 密切 相 
关 的 , 故 理论 上 计算 对 称 特 征 值 的 算法 都 可 以 用 于 计算 奇异 值 . ae cre 我 们 通过 可 以 利 
用 SVD 的 特殊 结构 使 得 算法 更 加 有 效 和 准确 . 
与 计算 对 称 和 矩阵 的 特征 值 类 似 , 计算 一 个 矩阵 4 的 奇异 值 分 解 的 算法 通常 分 为 以 下 几 个 步 
IR (Jacobi 算法 除外 ): 
1. 将 4 二 对 角 化 : B = UTAV, EP B HEZITE, U1, Vi 为 正 交 阵 ; 
2. 计算 BAY SVD: B = VEVI, HP X WIHA, U2, Vo 为 正 交 阵 ; 
3. 合并 得 到 4 的 SVD: A = UL BVP = (U1U2)B(ViV2)". 


5.7.1 二 对 角 化 


我 们 知道 , 对 称 和 矩阵 可 以 通过 一 系列 Householder 变换 转化 为 对 称 三 对 角 和 矩阵 . 对 于 一 般 矩 阵 
A E RX”, 我 们 也 可 以 通过 Householder 变换 , 将 其 转化 为 二 对 角 和 矩阵 , 即 计 算 正 交 和 矩阵 页 和 全 
使 得 


UP AV, = B, (5.6) 


其 中 B 是 一 个 实 (E) SPA ME. 这 个 过 程 就 称 为 二 对 角 化 . 
E 需要 注意 的 是 , 与 对 称 和 矩阵 的 对 称 三 对 角 化 不 同 , 4 与 B 是 不 相似 的 . | 


设 A e R”, 二 对 角 化 过 程 大 致 如 下 : 
(1) 首先 确定 一 个 Household 矩阵 Hy € R™*™, 使 得 H A 的 第 一 列 除 第 一 个 元 素 外 , 其 它 分 量 
都 为 零 , 即 


i | 
mie E 


(2) 再 确定 一 个 Household 矩阵 Hy < RO-)*(—1) 4E H A 的 第 一 行 的 第 3 BAB n REH 


零 , 即 


= * o j. 


(3) 重复 上 面 的 过 程 , 直到 把 4 最 终 化 为 二 对 角 和 矩阵 . 


O m.e 
Ro 
= 
L 1 
| 
© 
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有 了 分 解 (5.6) 以 后 , 我们 可 得 
474=(DmBVTTOBYWT = Vi BT BV, 
即 VE ATAV, = BTB. AF BTB 是 对 称 三 对 角 的 ,所 以 这 就 相当 于 将 ATA 三 对 角 化 . 
整个 二 对 角 化 过 程 的 运算 量 约 为 4mm2 十 4m2n 一 4m3/3, 知 不 需要 计算 i 和 Vi, 则 运算 量 约 
为 Amn? — 4n? /3. 
二 对 角 和 矩 阵 的 奇异 值 分 解 
i B € Rn 是 一 个 二 对 角 和 矩阵 


al by | 
E 
| an | 


则 下 面 三 种 方法 均 可 将 计算 B 的 SVD 转化 成 计算 对 称 三 对 角 和 矩阵 的 特征 分 解 : 


0 BT 
1) 令 4= , 
i B 0 


HER, H. Tps 的 主 对 角 线 元 素 全 为 0, 次 对 角 线 元 素 为 ai, bı, a2, bo, a An—1, bn—1, An. 着 
(Ai, xi) 是 Ts 的 一 个 特征 对 , 则 


1 r 
Ài = 10}, Px; = V2 网 , 
Tui 


其 中 c H B 一 个 奇异 值 ,wi All vi 分 别 为 对 应 的 左 和 右 奇 异 向 量 . 
(2) 令 Tggr = BBT, Ml 


) 


置换 阵 P = [el en41, €2, en42,.…. , En, €2n) M Tps = PT AP 是 对 称 三 对 


" + b? a2bı | 
b a 
TppBT = aan) . 
Gh 1 anbn_l 


2 
Anbn—1 ar 


Tear 的 特征 值 为 B 的 奇异 值 的 平方 , H TpBpr 的 特征 向 量 为 B 的 左 奇异 向 量 . 
(3) 今 了 PTP = BT Bp, mu 


a? at bi | 


Tene = a,b 1 a3 十 bt 


an—1bn—1 
an—1bn—1 a? oe bey 
Tarp 的 特征 值 为 B 的 奇异 值 的 平方 , H Ter pp 的 特征 向 量 为 B 的 右 奇异 向 量 . 


理论 上 ,我 们 可 以 直接 使 用 QR 迭代 、 分 而 治之 法 或 带 反 迭代 的 对 分 法 , 计算 三 对 角 和 矩阵 Tps» 
Teer $U Tgr p 的 特征 值 和 特征 向 量 . 但 一 般 来 说 , 这 种 做 法 并 不 是 最 佳 的 , 原因 如 下 : 


5-24 . 


(1) 对 Ts 做 QR 迭代 并 不 划算 , 因为 QR 迭代 计算 所 有 的 特征 值 和 特征 向 量 , 而 事实 上 只 要 计 
算 正 的 特征 值 即 可 ; 
(2) 直接 构成 Tppr 或 Tprp 是 数值 不 稳定 的 . 事实 上 , 这 样 做 可 能 会 使 得 B 的 小 奇异 值 的 精 
度 丢 失 一 半 . 
下 面 是 一 些 计算 奇异 值 分 解 的 比较 实用 的 算法 . 
1. Golub-Kahan SVD 算法 : 由 Golub 和 Kahan [15] 于 1965 年 提出 , 是 一 种 十 分 稳定 且 高 效 的 
计算 SVD 的 算法 . 主要 思想 是 将 带 位 移 的 对 称 QR 迭代 算法 隐 式 地 用 到 BTB E, 在 该 算法 
中 , 并 不 需要 显示 地 把 B7B 计算 出 来 . 该 算法 也 通常 就 称 为 SVD 算法 , 是 一 个 基本 日 实 用 
的 算法 , 目前 仍然 是 计算 小 规模 矩阵 奇异 值 分 解 的 常用 算法 . 关于 这 个 算法 的 详细 描述 , 可 
参见 [16]. 

. dqds 算法 : 由 Fernando 和 Parlett [12] 于 1994 年 提出 , 是 计算 二 对 角 和 矩阵 所 有 奇异 值 的 最 
快 算法 , 而 且 能 达到 很 高 的 相对 精度 , 包括 奇异 值 很 小 的 情形 . 该 算法 主要 基于 对 BTB 的 
Cholesky 迭代 , 可 以 看 作 是 LR 迭代 算法 的 改进 . 由 于 LR 迭代 算法 在 一 定 条 件 下 与 对 称 QR 

算法 是 等 价 的 , 因此 该 算法 也 可 以 看 作 是 QR EREE. 

. 分 而 治之 法 : 该 算法 是 计算 维 数 n > 25 的 和 矩阵 的 所 有 奇异 值 和 奇异 向 量 的 最 快 算法 , 但 不 
能 保证 小 奇异 值 的 相对 精度 , 即 o; 的 相对 精度 为 O(e)o1, 而 不 是 O(e)oi. 

. 对 分 法 和 反 迁 代 : 主要 用 于 计算 某 个 区 间 内 的 奇异 值 及 对 应 的 奇异 向 量 , 能 保证 较 高 的 相 
对 精度 . 

. Jacobi 迭代 : 可 隐 式 地 对 AAT 或 474 实施 对 称 Jacobi 迭代 , 能 保证 较 高 的 相对 精度 . 最 近 ， 
Z. Drmaé 和 K. Veselié [10, 11] 改进 了 最 初 的 Jacobi 算法 ,使 其 变 成 一 个 速度 快 、 精 度 高 的 实 
用 算法 . 

在 这 里 , 我 们 介绍 Golub-Kahan SVD 算法 , dqds 算法 和 Jacobi 迭代 . 


N 


w 


A 


on 


5.7.2 Golub-Kahan SVD 算法 

参见 [53] To be continued ... 

该 算法 主要 思想 是 将 带 位 移 的 对 称 QR 迭代 算法 隐 式 地 用 到 BTB E, 而 无 需 将 BT B 显 式 地 
计算 出 来 . 
算法 基本 框架 

Golub-Kahan SVD 算法 有 时 也 简称 SVD 算法 , 其 基本 框架 是 : 


o 将 矩阵 A 二 对 角 化 ,得 到 上 二 对 角 和 矩阵 B; 
。 用 隐 式 QR 迭代 计算 BTB 的 特征 值 分 解 , 即 


BTB =QAQ’, A = diag(o?,02,...,02). (5.7) 


。 计 算 BQ 的 列 主 元 QR 分 解 , 即 


(BQ)P = UR, (5.8) 


其 中 已 是 置换 矩阵 , U 是 正 交 和 矩阵 , RR 是 上 三 角 和 矩阵 . 
由 (5.7) 可 知 


(BQ) BQ =A, 
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因此 BQ 是 列 正 交 矩阵 (但 不 是 单位 列 正 交 ). 再 由 (5.8) 可 知 R = UT (BQ)P 也 是 列 正 交 和 矩阵. 又 
RE = SAFER, 所 以 RR 必定 是 对 角 和 矩阵 . S V = QP, Wh (5.8) 可 知 


UTBV = R. 
这 就 是 二 对 角 和 矩阵 B 的 奇异 值 分 解 . 
算法 的 具体 实现 
首先 是 选取 位 移 , 即 BT BAF ff 2 x2 和 矩阵 的 特征 值 . 易 知 该 2 x 2 矩阵 为 


2 2 
an—1 + bn,_2 An—10n-1 


Qn_1bn_1 aa + bey l 
将 其 靠近 a2 + b2 的 特征 值 作为 位 移 o. 
5.7.3 dqds 算法 


我 们 首先 介绍 针对 实 对 称 正定 和 矩阵 的 LR 算法 , 该 算法 思想 与 QR 迭代 算法 类 似 , 但 提出 时 间 
更 早 . 


算法 5.9 带 位 移 的 LR 算法 


1: Let To be a given real symmetric positive definite matrix 


2: seti = 0 

3: while not converge do 

4 choose a shift 7? satisfying 7? < min{ 和 A(T;)} 

5 compute B; such that T; 一 7 = BT B; % Cholesky factorization 
6 Tn = BBP + 7?I 
7 i 二 7 十 1 
8: end while 


LR 迭代 算法 在 形式 上 与 QR 迭代 算法 非常 类 似 . 事实 上 , 对 于 不 带 位 移 的 LR 迭代 算法 , 我 们 
可 以 证 明 , 两 步 LR 迭代 等 价 于 一 步 QR 迭代 . 


引 理 5.5 设 开 是 不 带 位 移 的 TIR 算 法 迭代 两 步 后 生成 的 矩阵 ,下 是 不 带 位 移 的 QR 算法 迭代 一 


步 后 生成 的 矩阵 , N T=’. 


证 明 . To be continued ... 口 


IS (1) LR 算法 中 要 求 To 对 称 正 定 , 但 并 不 一 定 是 三 对 角 和 矩阵 ; 
(2) 由 该 引 理 可 知 , QR 算法 与 LR 算法 有 相同 的 收敛 性 . 


下 面 我 们 介绍 dqds 算法 . 该 算法 是 针对 三 对 角 的 对 称 正定 矩阵 BTB, 其 中 B 是 二 对 角 和 矩阵 . 
在 数学 上 , dqds 算法 与 LR 算法 是 等 价 的 ,但 在 该 算法 中 , 我们 是 直接 通过 Bi 来 计算 Bi, 从 而 避 
Se FP [A] EE Tipi 这 样 也 就 尽 可 能 地 避免 了 由 于 计算 BB? 而 可 能 带 来 的 数值 不 稳定 性 . 


下 面 推导 如 何 从 B: 直接 计算 Bipi. 设 
at bi Q1 by 
a ， Biy = 


为 了 书写 方便 ,我 们 记 bo = bn = bo = bn = 0. 由 LR 算法 5.9 可 知 


B} Bir+7THl = BBP +771. 


比较 等 式 两 边 矩 阵 的 对 角 线 和 上 对 角 线 元 素 , 可 得 


a +b ty Hak tet, k=1,2,... 


~ 7 > ~272 2 2 
andy 一 Qk+1bk 或 arb = A404, k= 1, 
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bn—1 
ün 


) 7 


2,...,n—1. 


记 6 = 72, —72, pk = a2, gk = b2, De = G2, Ge 一 避 , 则 可 得 下 面 的 qds 算 法 . 


算法 5.10 qds 算法 的 单 步 (Bi > Biz) 


1: 0 = Tai —7? 

2: fork = 1 ton — 1 do 

3 Dk = Pk + Gk — Ge-1 — ô 
4 dk = qk ` (Pk+1/Pk) 

5: end for 


6: Pn = Pn — Gn—-1 — Ò 


qds 算法 中 的 每 个 循环 仅 需 5 个 浮 点 运算 , 所 以 运 
入 一 个 辅助 变量 di 会 px — rı — ô, I 


] 

val 
z 
总 


dk = Pk — M%-1 — Ò 


dk—1Pk 
三 人 一 一 -一 一 0 
Pk-1 
Prat = qk—1 
= Pk: — 0 
Pk-1 
Pk-1 — ĝk-2 — Ô 
= Pk: 一 0 
Pk-1 
= ee .dr_1—56. 
Pk-1 


于 是 就 可 得 到 dqds 算法 5.11. 


算法 5.11 dqds 算法 的 单 步 (B; > Biri) 


. 为 了 提高 算法 的 精确 性 , 我 们 引 


aoe. a2 
1 Ô = Tf Ti 


2: dı =p —ô 
3: for k = 1 ton — 1 do 
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Pk = dk + qk 
t = Pk+1/Ďk 
j= qk: t 
dk+1ı = dk:t— ô 
end for 
: Pn = dn 


Wo w oD y a 


dqds 算法 的 运算 量 与 dqs 差不多 , 但 更 精确 . 这 里 我 们 只 列 出 相应 的 结 


引 理 5.6 kot AE BB 的 对 角 元 和 上 对 角 元 分 别 为 Q1,a2,...,an Fe b1,b2,...,bn-1, BH 
角 元 和 上 对 角 元 分 别 为 ŭi = aim, bi = bi&i. M B= D, BDz, 其 中 


mm Nanm MmMmn-1 TH ) 
0 6 itn) 


D = diag (i & Eb 名 a) 


Dı = diag (m 


m’ nom , Mn-19n-2°°° 1 


定理 5.8 设 妃 和 万 的 定义 如 引 理 56. HAET > 1B TI <n <7 <& <7 
ez 二 7 一 1 是 B 与 BB 的 相应 元 素 之 间 的 相对 误差 的 一 个 上 界 . 设 刀 与 户 的 奇异 值 分 别 为 
O01 > 09>... > On FG, > 02 >... > Gp, Ml 


[õi — ai < ar 一 1)oi. 


#o,40e=7T-1<K1 MEXIA 


Ac <7T4 — 1 = (4n — 2)e + O (e°). 


下 面 给 出 dqds 算法 的 高 精度 性 . 


定理 5.9 以 浮 点 运算 对 已 应 用 dd 必 算 法 的 单 步 , 得 到 矩阵 B, 该 过 程 等 价 于 
1. 对 B 的 每 个 元 素 作 一 个 小 的 相对 扰动 (不 超过 1.5e), 得 到 B; 


2. 对 电 应 用 精确 的 dqds 算法 的 单 步 , 得 到 B; 
3. 对 B 的 每 个 元 素 作 一 个 小 的 相对 扰动 (不 超过 e), 得 到 B. 
由 定理 5.8 可 知 ,已 和 万 的 奇异 值 满足 高 的 相对 精度 . 


关于 dqds 算法 中 位 移 的 选取 , 以 及 如 何 判断 收敛 性 , 可 以 参见 [12]. 


5.7.4 Jacobi 算法 

本 节 讨 论 对 和 矩阵 M = A? A 实施 隐 式 的 Jacobi 算法 来 计算 A 的 奇异 值 . 

我 们 知道 , Jaboci 算法 的 每 一 步 就 是 对 和 矩阵 作 Jacobi 旋转 , BI ATA 一 JT AT AJ, HP J 的 选 
取 将 某 两 个 非 对 角 元 化 为 0. 在 实际 计算 中 ,我 们 只 需 计 算 AJ, 故 该 算法 称 为 单 边 Jacobi 旋转 . 


算法 5.12 单 边 Jacobi 旋转 的 单 步 
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% Xt M = ATA Jacobi #44, 4% M (i, j), M(j, i) 16% 0 
1: Compute Mii = (ATA) xi, Mij = (AT A)ij» Nii = (AT A)jj 


2: if mj; is not small enough then 


3 T = (Mu — 43) /(2- mij) 

4  t=sign(r)/(\r]| + V1 +72) 

5: e=1/V1+# 

6: s=c:t 

7: A= AG(i,j,0) % G(i,j,0) A Givens 变换 
8: if eigenvectors are desired then 

9: J=J.-G(i,j,0) 

10: end if 


11: end if 


在 上 面 算法 的 基础 上 , 我 们 可 以 给 出 完整 的 单 边 Jacobi 算法 . 


一 < 


算法 5.13 单 边 Jacobi 算法 : 计算 A=UDVE 


1: while 47 A is not diagonal enough do 
for i = 1 to n — 1 do 
for j = i + 1 ton do 
调用 单 边 Jacobi 旋转 


end for 


end for 


5 
6 
7: end while 
8: compute ai = ||A(:,2)|l2.7=1,2,...n 
9 


: U = [wi, , Un] with u; = AC, D)/a 


10: V=J 
Jacobi 算法 的 特点 : 


。 不 需要 双 对 角 化 , 这 样 可 以 避免 双 对 角 化 引入 的 误差 ; 
。 可 达到 相对 较 高 的 计算 精度 ; 
e 速度 较 慢 . (目前 已 有 快速 的 改进 算法 ,参见 [10, 11]) 


REIN A= DX CR™ HY DAHFAMAB X 非 奇 异 . 设 4A 是 按 ; 


边 Jaco 玉 旋转 网 次 后 所 得 到 的 矩阵 . BA 和 A 的 奇异 值 分 别 为 ol > D>... 


Gt S09 >... > Ôn I 


lê; = od 


< O(me)K(X). 


Ti 


eX RRA T, LE 4 的 奇异 值 时 相对 误差 越 小 . 
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5.8 ”扰动 分 析 
i 4 < R?” EIPRE RE, 则 有 下 面 的 谱 分 解 . 
定理 5.11 X ACR"™” RHA. 则 存在 一 个 正 交 矩阵 Q 使 得 


A = QAQT 


其 中 A = diag(\y, 和 2,..., An) E-A Rat ABE. 


应 的 单位 正 交 特征 向 量 . 
关于 对 称 和 矩阵 特征 值 问题 的 扰动 理论 , 这 里 只 做 一 些 简单 介绍 , 若 要 深入 了 解 这 方面 的 信息 ， 
可 以 参考 [22, 23, 38, 50]. 
5.8.1 FEES Rayleigh 商 
定义 5.2 KAER” HARES, 向 量 Z eR FR, N XT Aoi Rayleigh SZALA: 


al Ax 


A\= 
p(x, A) a 


有 时 简 记 为 ple). 


下 面 是 关于 Rayleigh 商 的 一 些 基 本 性 质 : 
(1) plaz) = p(x), Va € R, a £0; 
(2) pelti) = àpi = 1,2,...,n; 
(3) Bea = aqi + aag 十 … 十 angm MI 


p(z) = 


(4) An < p(x) < àr |e(z)| < All. 
实 对 称 和 矩阵 的 特征 值 与 Rayleigh 商 之 间 的 一 个 基本 性 质 是 Courant-Fischer 极 小 极 大 定 
理 . 
定理 5.12 (Courant-Fischer) 设 A c R”*” 是 对 称 矩 阵 , 其 特征 值 为 和 1 > A > ++ > An MA 


afd; 十 a3Xa 十 … +02 An | 
Qf 十 a3 十 … 十 QO2 0” 


xiAz . a! Ax 
Ay = Max min a =n ax 7i 
UES} ZEU, 240 £T VESZ—p+1 TEV, Z 天 0 TİL 


其 中 S? ATR" 中 所 有 i 维 子 空间 构成 的 集合 . 当 


U =span{qi,..+,¢.}, V=span{gp,:..,dn}; T= qk 


时 , 上 式 中 的 等 号 成 立 . 


证 明 . i U € S? AIV E SR pp 分 别 为 R” 中 任意 的 上 和 mn 一 十 1 维 子 空间 . 由 于 


dimU+dimV=n+1>n, 
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UNV # {0}. 
HEERE ze UNV. 所 以 有 


i < p(x) < > 
A 


H UM V 的 任意 性 可 知 ， 


max min x)< min max x). (5.9) 
UES? ZEU， Bae ) VEST pad rey, nr ) 


FX U = span{q,..., qx} UU PIES ee aba SM £ = aqi +--+ + agg, 此 时 


= a Ar _ afd 十 .十 QUA > Yri 
Pe ateta SE a? 


即 
in p(x) > Ak. (5.10) 


Max m 
UES? ZEU, xA0 


同 理 , 取 V = span{gqx,...,qn}, 则 VV 中 的 任意 向 量 都 可 写成 z= age 十 … + Ondns 此 时 


a? Ar 7 OEM t oan Dp OF AK = 
p(x) = 一 一 = 2 23 noT 一 Aks 
“0 Op a Ol ink ad 
即 
. < Àn. 5.11 
ve Apt, Me) S m 
由 (5.9), (5.10), (5.11) 可 知 , 定理 结论 成 立 . a 


当 ==1 和 ==n 时 ,就 可 以 得 到 下 面 的 定理 . 
定理 5.13 (Rayleigh-Ritz) 设 A € 及 "xm” 是 对 称 矩 阵 , 其 特征 值 为 和 1 > 和 2 > .… > An WA 


rT Ax i a! Ax 
max To = min —_-: 
rER?, x40 TİL xeR”, ZX0 TiL 


à = 


由 极 小 极 大 定理 , 我 们 可 以 得 到 下 面 的 特征 值 分 隔 定理 . 


定理 5.14 (分 隔 定 理 ) 设 4 e 了 "xn 是 对 称 和 矩阵 , B= QT4Q, 其 中 QE 了 "xm-D AE QT = 
T,_1. 再 设 A 和 B 的 特征 值 分 别 为 


村 别 地 , 在 定理 5.14 中 , 取 Q = [el , €i—1, Citl; ye 由 则 可 以 得 到 下 面 的 结论 . 
推论 5.15 设 A c Ro” 是 对 称 矩 阵 , A 是 A M—An—1YEF4EM, A 4 和 A 的 特征 值 分 别 为 


MeN 和 ge eS Ana, 


推论 5.16 HRA CR” 是 对 称 和 矩阵 , A 是 4 的 一 个 天 阶 主子 矩阵 (1L <k<n-1),Ate AH 
征 值 分 别 为 


则 有 


5.8.2 ”对 称 和 矩阵 特征 值 的 扰动 分 析 


设 A c RO” EXPRE RE, PEZE RE E e R?” 也 是 对 称 和 矩阵 ,下面 讨论 4 十 五 的 特征 值 与 4 
的 特征 值 之 间 的 关系 . 

由 极 小 极 大 定理 , 我 们 可 以 证 明 下 面 的 性 质 . 
定理 5.17 ACR" fo B= A+E CR” MEMES, 其 特征 值 分 别 为 


MA> dAn 和 An > Ag So Se 


BE E RK FORA EEA BA py 和 un WA 


Ai + pn > Ài > Ai + Hn, t= 1,2,...,n. 


证 明 . 由 Courant-Fischer 定理 5.12 和 Rayleigh-Ritz 定理 5.13 可 知 


~ . xT Br 
和 Xi 一 min max T 
veS? ;1 zEV, 240 aT x 


. riAr «Ex 
= min max 下 站 一 
Vest 41, TEV, ZK0 \ TT T T 
去 . x! Ax 
< min max + m 
veS? ;1 zEV, 240 \ ala a 
: a? Ax 
= min + Hı 


max ZT 
VESZ—ip1 VEV, rz#0 LiL 
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= 和 Ai + M1. 
同 理 可 得 
~ ; xT Br 
A; = max min T 
UES? ZEU, z#0 TtT 
: riAr «x Ex 
= max min T tT 
UES? veU, 240 | ata gtr 
. x! Ax 
> max min —a— + bn 
UES? ZEU, xA0 TT 
à rT Ax J 
= max min 一 二 一 
UES? zeU, 240 al x Hn 
所 以 定理 结论 成 立 . 口 


根据 这 个 定理 ,我 们 立即 可 以 得 到 下 面 的 Weyl 定理 . 


定理 5.18 (Weyl) 2 A € R?” fe B = A+E c R” MRM, 其 特征 值 分 别 为 和 1 > 
A2 Ss > Ante X > A ee > Am M 


[Aj — Aj] < Elle, gf =1,2,...,n. 


该 定理 的 结论 可 以 推广 到 奇异 值 情形 . 我 们 首先 给 出 下 面 的 引 理 . 

引 理 5.7 3 A c R” (m > n) 的 奇异 值 分 解 为 A = 二 UDV, 其 中 U = [u,..., un] CR™" A 
I EREE, V = [v,..., Vn] E R? AEREE, = diag(o1,...,0n). KUFAA Nx n i 
SER HE |U, Ü] = [u1,... , Un, 1,- , Üm-n} € 


T 
H=| A | Rmtn)xntn) 


A 0 


则 H Itik, 且 特 征 值 为 土 9; 和 0 (其 中 0 至 少 为 m 一 nn 重 特征 值 ), 对 应 的 特征 向 量 分 别 为 


0 
1,2,...,n, 和 | „j =1,2,..., M— N. 
Uj 


证 明 . 直接 代入 验证 即 可 . 口 
由 上 面 的 引 理 和 Weyl 定理 5.18 立即 可 得 


定理 5.19 设 A,B c R” (m > n), 它们 的 奇异 值 分 别 为 ol > o>- > 
… > Gy. 则 


|e; — oj| < ||B— Alla, j= 1,2,...,n. 


5.8.3 “对称 矩 阵 特征 向 量 的 扰动 


定义 5.3 设 4E 民 "的 特征 值 为 AL > Xa > + 二 Xmw 则 和 Xi 与 其 余 特 征 值 之 间 的 间隙 (gap) 


gap(A;, A) =min |A; = Ail. 
j#i 


有 时 简 记 为 gap( 和 i). 


号 特征 向 量 的 敏感 性 依赖 于 其 对 应 的 特征 值 的 gap, 一 般 来 说 , gap 越 小 , 特征 向 量 越 敏 感 . | 


例 5.2 设 


工 十 9 


A= ) E = 


0 e 
| (0<e< g) 
E 0 


则 A 的 特征 值 为 Ay = 1g, à = 1 对 应 的 单位 特征 向 量 为 qi = e1 q2 = e2. 4 十 五 的 特征 值 为 
A12 = 1+ (g + yg? 十 452)/2, 对 应 的 单位 特征 向 量 为 


1 1 
Gi =i: | /1 + 4e2/g2 —1] = | V0 + 262/92)? — 4(e/g)4 — 1 
2e/g 2e/g 
asx 
~ pı: | (1+ 26"/9°) = 1 
2e/g 
2 I 1 


1 
: 1 —e/g 
= : 1 + de? 2—1] 3 — ; 
G2 = Pe Vv aot ll 1 | 
E/g 


其 中 61, Bo 为 规范 化 因子 . 故 特征 向 量 的 扰动 约 为 e/g, 与 特征 值 的 间隙 gap( 和 i, A) = 9 成 反比 . 


定理 5.20 7 A= QAQ?T fo A+ E = QAQ™ FAA A CR” fo A+ E CR” 的 特 
特征 向 量 . 用 0; 表示 g; 和 i 之 间 的 锐角 , 则 当 gap(d;, A) > 0 时 

tao || Elle 

z Sin 26; < gap(A;, A) 


类 似 地 , 当 gap(Xi, A+ E) > 0 时 


lEle 


1. 
3 sin 20; < 


证 明 . 如 右 图 所 示 , 令 d = 5%/ cos 0; — qi, BU gi = (qi + d) cos 6;. WI) 


dig; =0，tanbi = ldlla, sec; = ||qi + dll2. 
& n= Xi — Nin M (A+ BG = 和 NG 可 得 


(A+ E)(qi +d) = (n + Ai) (qi + d), 


将 Aqi = Xigi 代入 后 整理 可 得 
(nI — E)(q, + d) = (A — NDd. 
X qT (A — AT) = ((A — XI7)d)7 = 0, 故 用 dz 左 乘 上 式 两 边 可 得 
qi (MI — E)(qi + d) = qj (A — Ail)d = 0, (5.12) 


即 (nI — E)(qi +d) € span{q}+ = span{q,...,gi-1, li+1 -- -> On}. 所 以 可 设 (I — E)(qi + d) = 
Saree 5). 又 qd = 0, 故 可 设 d= pee, 059; 所 以 


》 aq; = (nf — E) (qi + d) = (A-AD)d 
jżi 
= (A- Ail) >》 507 = S > 5; ( (A-AD)qj = YGU 
j#Fi j#t jFi 
由 于 qi 92,.…. ,qn 线性 无 关 , 故 可 得 0j( AN — Ai) = aj. X gap(di, A) > 0, BI j Ai A; AA AY 


6: = Xe 因此 
d= J ~~g. 
ji A = 


注意 到 ad = 0 H 97g; = 1, 所 以 由 (5.12) 可 得 


n=q E(qi + d). 
故 


(nI 一 五 )(G + d) = (qi + d)n — E(qi + d) 
= (qi + d)q} E(qi + d) — E(qi + d) 
= ((qi + d)q? — T)E(qi + d). 


由 习题 5.4 可 知 || (qi + dg? — Tle = llai + dlo, 4 


= = Xj 
tan; = ||d||2 = 5 en 


Qj 
| gap(A;, A) 


1/2 
~ gap( nA [3 ) 


TAA 


WW 


1 
~ gap(\i, A) > ojij 
gap(à;, A) = l 
1 
Gap, Ay ee Oe 
1 
< pay + Dal = la Elle Ia + Oe 
1 
= Fp Aye + Ala NE 
ee 1E] 
gap(N A) cos20 "7 
即 , 
oe = 
5 sin sin 0; cos tan 6; cos 6; < pap, 4) lla 
将 4 十 互 看 作 原 矩 阵 , (A+ E) - E BIRRE RE, MENENS MIE. 


E èë e 40 «1H, 5 sin 20; = 0; ~ sin ĝ;; 
。 当 ||Ello > #gap( 和 Xi, A) IN, 定理 中 给 出 的 上 界 就 失去 了 实际 意义 ; 
。 在 该 定理 中 , 没有 对 特征 值 进行 排序 ; 
。 在 实际 计算 中 ,我 们 通常 所 知道 的 是 gap(Xi, A + E). 


5.8.4 Rayleigh igi 
定理 5.21 设 对 称 矩阵 A c ROX. 的 特征 值 为 Al, A2,..-, Ans 
(1) 车 ze 了 "是 单位 向 量 , 6 ER, N 


min I — Bl < Ax — palla; 
(2) 对 于 给 定 的 非 零 向 量 z CR", 当 B8=plz) 时 ,|4z — Ballo 达到 最 小 , 即 
min || Av — Bala = 4z 一 olojzls (5.14) 


(3) Ar = Ax — p(a)ax, KA; RIE A p(x) 最 近 的 特征 值 , gap' = minj;z;|Aj — p(x)|, 0 & x Fe 
qi 之 间 的 锐角 , 其 中 qi 是 Xi 对 应 的 单位 特征 向 量 , 则 


`g 


2 
E |à — p(x)| < lri. (5.15) 


1 


ap’ gap 


证 明 . (1) 若 8 是 4 的 特征 值 , 则 结论 显然 成 立 . 
F 6 不 是 4 的 特征 值 , 则 4 - BI AR Arse, i 


1 = [lalla = (4 - 87A ~ B1alla < A- 8D: MA-BDalla. (6.16) 
由 于 A — BI 对称 , 且 特征 值 为 — 8, 故 
IA- 81 = ye 


1<i<n 
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代入 (5.16) 即 可 知 结论 成 立 . 
(2) 由 于 


Bl x L (Ax — plz)z). 所 以 


|| Ax — Berl) = ||(4 — pla) 2 + (p(x) — 6)zll 
= ||Ax — p(x)z\|3 + ||(o(x) -有 了 | 
> |4z — plz)z|2， 


所 以 当 6 = p(x) HY, || Ax — Ballo 达到 最 小 . 
(3) 略 口 


oS 由 (5.13) 可 知 , CEREUS IE CP BT DAE RE || Aa 一 Axl < tol 作为 停机 准则 , 这 里 入 
是 迭代 过 程 中 计算 得 到 的 近似 特征 值 . 等 式 (5.14) 则 解释 了 为 什么 用 Rayleigh 商 来 近似 特 
征 值 . 


E 不等式 (5.15) 表明 | 和 i — p(z)| 的 值 与 残 量 范 数 |r|l。 的 平方 成 正比 , 这 个 结论 是 Rayleigh 商 
迭代 局 部 三 次 收敛 的 基础 . 


5.8.5 ”相对 扰动 分 析 
这 里 主要 讨论 A 和 X77AX 的 特征 值 和 特征 向 量 之 间 的 扰动 关系 , 其 中 X 非 奇 异 且 满足 

||X7X — Il = £. 这 是 因为 在 计算 特征 向 量 时 , 由 于 舍 和 人 误差 的 原因 , 最 后 得 到 的 正 交 和 矩阵 Q 会 

们 有 误差 ,从 而 失去 正 交 性 . 

定理 5.22 (相对 Weyl 定理 ) 设 对 称 矩 阵 A 和 XTAX 的 特征 值 分 别 为 Xi > Xa > > 

NM > Ag Des Dw Se = ||XTX - Illo 0 

和 i 一 和 i 

|Ai| 


pes & ! 


<e (f^ #0). 


证 明 . 因为 4- Xi 的 第 ;个 特征 值 为 0, 故 由 Sylvester 惯性 定理 5.6 可 知 


XT(A—NDX= (XTAX — MI) +A- XTX) 


的 第 i 个 特征 值 也 为 0. 由 Weyl 定理 5.18 可 知 
(Ai — Aa) — Ol] < AU — XX)l2 = elXil, 


即 定理 结论 成 立 口 


tr 当 义 正 交 时 ,e = 0, 故 X AX 与 4 有 相同 的 特征 值 . 当 X 几乎 正 交 时 ,e 很 小 ,此 时 X7AX 
与 4 的 特征 值 几乎 相同 . 


推论 5.23 设 G 和 Y7GX 的 奇异 值 分 别 为 ol > o>- > 


e=max{||X7X — Io, YTY — Ilo}, 2 


[õi — oil 


lo;| 


Fi 一 0i| 达 eloi| 或 


<e (if oi F 0). 


下 面 给 出 特征 向 量 的 相对 扰动 性 质 . 
隐 (relative gap) 定义 为 


,| 和 Nj 一 和 
Igap(Ai, A) = 
relgap(Aj, A) Jo ame 


定理 5.24 W A c R” fo XTAX c R™” 的 特征 值 分 解 分 别 为 4 = QAQ?T Fo XTAX = 


QAQT, 其 中 Q = [q1; Q2, saii , qn] 和 Q RE [41, G2, paa , õn] 34 Al IER FE, A= diag(A1, A2, asia , Àn) 
A = diag(A1, d2,...,n) A > 2 > e > An Ai > de >. > A KORT qi Fi 之 间 的 
A, A a = |Z- XTX] eg = |X — Ilo, # £1 < 1 Hrelgap(d\;, X7 AX) > 0, 2 


1. E1 1 
— sin 26; < . ` HER: 
2 l—e relgap(\;, XTAX) 


EAA. Bn = À; — àn H = A-AjI, F = Xl XTX), WW) Hg; = Agi — Ngi; = —NGis 
H+P=A-\X TX =X 7 (XT AX -ADX. 

iit (H + F)(Xq) = 0. B Xq È H + F B i AERE X = 0 的 一 个 特征 向 量 . 设 OE qi 与 
XG 之 间 的 锐角 , 由 定理 5.20 可 知 

|| F'll2 _ el|Ai| 
gap(\i,H+F)  gap(à; H +F) 
HF, = 0, i gap(A;,H + F) BWW H + FORNARINA X XT(H +F)X = 
XTAX 一 入 了 的 特征 值 为 和 j io j = 1,2,...,, H 


1 
3 sin 201 < (5.17) 


ii = Ài > AQ— AED d An Nh, 
所 以 由 相对 Weyl 定理 5.22 可 知 
[Nj — (Ag — Aa) Sexy — Al. 
这 里 Aj 表示 五 十 五 的 第 ;个 特征 值 ( 按 降序 排列 ). 因此 |Aj| > (1 — e1) Aj — Ai|, 故 
gap(N, H + F) > (1—e1)gap(\;, X7 AX). 
代入 (5.17) 可 得 


1 . ell 和 i E1 1 
~ sin 20, < = = . = 
2 (1—ei)gap(N, X7AX) 1l—e relgap(Ni, XTAX) 


设 如 是 XG 与 和 6 之 间 的 锐角 , 则 由 右 图 可 知 


sin 62 = ||Gill2 sin 62 < ||Xq@ — Glle 


MO; < 0, + Oo, te 


即 定理 结论 成 立 . 


< ||X = Ilo - alle 


= €9. 


1 1 1 
5 sin 20; < 3 sin 201 + 3 sin 205 


IA 


1 
5 sin 26; + sin 62 


< E1 1 
”1 一 sl relgap(\;, XT AX) 


+ €9, 
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5.9 课 后 习题 
5.1 W A E R EXPRE RE A c R™” 的 一 个 特征 值 , 对 应 的 特征 向 量 为 ze R”. i ER" 是 x 
的 一 个 O(e) IEW, BI & = x + O(e), UEFA: 
ET AX 
ETE 
EI Z XTR Rayleigh 商 是 入 的 O(c?) ai. 
5.2 i% A = D + awuf, P D = diag(di, d2,.. . , dn), u = [au ,un 证 明 : 
(1) 4 di = dig, IX u; = 0, 则 gq; 是 4 的 特征 值 ; 
(2) Æ u; = 0, 则 ei 是 与 d; 对 应 的 特征 向 量 ; 
(3) Æ di = dr 试 给 出 与 必 对 应 的 特征 向 量 . 
5.3 设 x,y € R”, WEH: det(I+ ay?) =14+yla. CE: 在 复数 域 也 成 立 ) 
5.4 qe R WE llall = 1. 对 任意 与 gq 正 交 的 向 量 d e R", 试 证 明 : 


= 入 + O(e2)， 


Ila +d)" — Ill = |g + dle. 


5.5 i Ac C™™” 是 skew-Hermitian 和 矩阵, 即 A* = —A. 证 明 : 
(1) A 的 非 零 特征 值 是 纯 虚 数 ; 
(2) I + AAR ATR; 
(3) 矩阵 (T + ATII — A) EERE. (该 矩阵 称 为 4 AY Cayley 变换 ) 


i E I B|., 
5.6 ix BER™ m >n H ||Bll < 1. ÆA = al ,证 明 : 

1+ ||Bll2 

kəl A) = 一 -一 一 一 . 

1— ||Bll2 


5.7 ia E€ R” 是 一 个 正 向 量 , 即 x; > 0. 证 明 : 由 x 定义 的 Cauchy FEM A 


1 
Qij = —_ 
i zi + Tj 


是 对 称 半 正定 的 . (参见 钴 兴致 教授 的 “和 矩阵 论 ”) 


5.8 设 zy ER", 若 zz 只 有 零 特 征 值 ,证 明 : xy? th RARE. 
BEX, Y © RP, BVT 只 有 零 特征 值 , 则 XYT 是 否 也 只 有 零 特征 值 


实践 题 
5.9 写 出 对 称 和 矩阵 三 对 角 化 的 完整 算法 . 


5.10 写 出 带 Wilkinson 位 移 的 计算 对 称 三 对 角 和 矩阵 的 特征 值 和 特征 向 量 的 完整 QR 算法 ,并 上 机 
编程 实现 (MATLAB). 


第 六 章 


线性 方程 组 的 迭代 解法 


求解 线性 方程 组 的 方法 有 : 


。 直接 法 


Lo W GEE: Jacobi/Gauss-Seidel, SOR, AOR 
Krylov 子 空间 迭代 法 

多 重 网 格 (Multigrid) 

快速 多 极 子 算法 (Fast multipole) 

每 种 方法 通常 只 是 对 某 些 类 方程 有 效 . 在 实际 应 用 中 , 这 些 方法 可 以 结合 使 用 , 如 混合 (hybrid) 算 
法 , 预 处 理 算法 (preconditioning). 本 章 以 Poisson 方程 为 例 , 描述 两 类 基本 的 线性 方程 组 迭代 算 


e ZIEHE: Jacobi, GS, SOR, AOR, SSOR 
。 Krylov 子 空间 迭代 算法 : CG, GMRES 
e 快速 Fourier 变换 (FFT) 
e 多 重 网 格 (Multigrid) 
更 多 迭代 算法 可 参见 [3]. 


法 ; 


a 
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6.1 ”离散 Poisson 方程 
6.1.1 一 维 Poisson 方程 
考虑 带 Dirichlet 边界 条 件 的 一 维 Poisson 方程 


[a = f(x) 0<z<1, 


dx? 
u(0) =a, u(1) = b, 


其 中 f(x) 是 给 定 的 函数 ,u(x) 是 需要 计算 的 函数 . 


差分 离散 
1 = 
PK h = mre ALa =th,i=0,1,2,...,.n+1. 采用 中 心 差分 离散 , 即 
d2u(z) 2u(xi) — u(xi—-1) — u(xi+1) | > ||d*u . 
S| = 5 O(a e $=. 


代入 一 维 poisson 方程 (6.1), 舍 去 高 阶 项 后 可 得 Poisson 方程 在 xz; 点 的 近似 方程 
—ui-1 + 2u; — uiti = h’ fi, 


其 中 fi = f (ai), wi 为 u(zi) 的 近似 . 令 i= 1,2,.….,n, 则 可 得 nn 个 线性 方程 ,写成 矩阵 形式 


Tnu = Í; 
其 中 
2 _ 1 Ul fi + uo | 
i U2 f 
TeS E | , 全 tridiag(—1, 2, —1), u 一 : | . : | 
| k F Un—1 万 -1 
Un Fa + Un+1 
系数 矩阵 T, 的 性 质 


引 理 6.1 Tn 的 特征 值 和 对 应 的 特征 向 量 分 别 为 


M =2—2 0: 
= 2 — 2 cos 
k n+1 


mpe 2 . ktr . 2kr 
ae TT ae 


BT, = ZAZ™, AY A = diag(A1, A2,.-.,An), Z = | 


证 明 . 直接 代入 验证 即 可 . 


(6.1) 


(6.2) 


(6.3) 


引 理 6.2 更 一 般 地 , KT = tridiag(a,b,c) € R"*", 则 人 的 特征 值 为 


kr 
n+l’ 


Ak = b — 2\/accos k=l 分 .全 


对 应 的 特征 向 量 为 zp, 其 第 了 个 分 量 为 


特别 地 , 若 a = 二 c= 1, 则 对 应 的 单位 特征 向 量 为 
> | 2 We kr . 2kr . nkr 四 
k= uad al aa d : 


由 引 理 6.1 可 知 , T 是 对 称 正定 的 , 其 最 大 特征 值 为 


NA nT 
2 (1 - 00s ) = 4sin? Bn +1) x 4, 
最 小 特征 值 为 
2 (1 - cos =) = Asin? ace D x (=) : 
因此 , 当 nn 很 大 时 , Tr, 的 谱 条 件数 约 为 
Paar Ans 1)? 


6.1.2 ”二 维 Poisson 方程 
现在 考虑 二 维 Poisson 方程 


Du 人) Pulz, y) 


(6.4) 
u(x, y) = v(x, y), (x,y) E 00 


其 中 Q = [0,1] x [0, 1] 为 求解 区 域 , OO 表示 Q 的 边界 . 
五 点 差分 离散 
1 


为 了 简单 起 见 , 我 们 在 z- 方 向 和 人 方向 取 相 同 的 步 长 尹 = awa, Tak ti = ih, yj = jh, 
i,j =0,1,2,...,n. 在 Z- 方 向 和 信 方 向 同时 采用 中 心 差分 离散 可 得 


Pula, y) ~ 2u (Ti, Yj) = U1, Yj) — wey) 
Ou(zx,Yy) ~ 2u(2i Yj) — Ulti, Yj 1) — Ulti, Yj+1) 
Oy" je h? 


代入 二 维 Poisson 方程 (6.4) 即 得 Poisson 方程 在 (xi, yj) 点 的 近似 离散 方程 
di — Uii j — Wit1,j — Uij—1 — Uijl = h fig, 


其 中 fij = 了 (zi yj) uig J ulei yj) 的 近似 . 
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(£i, Yj+1) 


(zi—1, Yj) (£i+1, Yj) 
一 工 一 工 


写成 矩阵 形式 即 为 
Tu =h’f, (6.5) 


其 中 T = 18@7,+7, 8, u = [Ui ts ey ini U s Un, 23- Ul nye be |S 这 里 Q 表示 
Kronecker WF, T, 为 一 维 Poisson 方程 离散 后 的 系数 矩阵 , 即 (6.3). 


在 后 面 介 绍 的 算法 时 , 我 们 都 以 二 维 离散 Poisson 方程 (6.5) 为 例 . 
系数 和 矩阵 了 的 性 质 
ALA T = I 8 Ta + Thn Q I, H Kronecker 乘积 的 性 质 即 得 


定理 6.1 HT, = ZAZI, AP Z = [24, 20,..., 2m] AER, A = diag(d1, A0,...,An) AHA 
阵 , 则 全 的 特征 值 分 解 为 


T =(Z@Z\(I@A+A@QI(Z@Z)‘, 


即 代 的 特征 值 为 Xi + Aj, 对 应 的 特征 向 量 为 z © zj (i,j =1,2,...,n). 


HF TIREE, 其 条 件数 为 


NT NT 


入 (T) 1 — cos sin? nar 4( 4 1 
ct) = Dae) 0 eT ET dims 
Amin(T) 1 — cos £ sin? 7 
n+1 2(n+ 1) 


故 当 ” 越 来 越 大 时 , (T) 一 00, 即 工 越 来 越 病态 . 
类 似 地 , 三 维 poisson 方程 采用 中 心 差 分 离散 后 的 系数 矩阵 为 


Mm®I@l+I1@T, @®1+1@L1@T,. 


二 维 离散 Poisson 方程 的 常用 算法 
(BE PURI AIA n x n, Hid ms = n?. 
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方法 FB ATE Te] 存储 空间 
直接 法 | 稠密 Cholesky 分 解 O(n?) O(n?) 
WR O(n?) O(n?) 
带 状 Cholesky 分 解 O(n?) O(n3/ 区 
Fai Cholesky 分 解 O(n?!) O(ns log ns) 
古典 迭代 | Jacobi O(n?) O (ns) 
Gauss-Seidel O(n?) O(ns) 
SOR O(n?!” O(ns) 
带 Chebyshev 加 速 的 SSOR —O(n2/*) O(ns) 
Krylov 子 空间 迭代 | CG (EHTE) O(n’) O(ns) 
CG ( 带 修正 IC 预 处 理 ) On5/4 O(ns) 
快速 算法 | FFT (快速 Fourier 变换 ) O(nslogns) O(ns) 
块 循环 约 化 O(nslogns) O(ns) 
Multigrid O(ns) O(ns) 


“627 


6.2 ”古典 和 迭代 算法 
本 节 介 绍 基 于 和 矩阵 分 裂 的 古典 和 迭代 算法 (Classic iterative methods). 内 容 包括 : 
© Jacobi 算法 
© Gauss-Seidel 算法 
e SOR (Successive Over-Relaxation) 算法 
© SSOR (Symmetric SOR) 算法 
e AOR (Accelerated over-relaxation) 算法 


6.2.1 FERES RIA RUE 


考虑 线性 方程 组 
Ag = b, (6.6) 
其 中 4 e R” 非 奇 异 . 迭代 算法 的 基本 思想 : 给 定 一 个 迭代 初始 值 z(0 定 的 迭代 格式 生 


成 一 个 迭代 序列 {a o 使 得 
lim xz(*) = £, 全 ATT. 


k-oo 


定义 6.1 (FE REST Matrix splitting) 设 A < R” aH, 称 


A=M-N 


为 4 的 一 个 矩阵 分 裂 , 其 中 M 非 奇 异 . 
一 个 和 矩阵 分 裂 (6.7), 则 原 方程 组 (6.6) 就 等 价 于 Mz = Na +b. 于 是 我 们 就 可 以 构造 出 以 
re 
ct) = MIN) + Mtb £ Gr") +g, k=0,1,..., (6.8) 


其 中 G = MN PARERIK REE. 取 不 同 的 M, 就 可 以 构造 出 不 同 迭 代 算 法 . 
TES h EF AAEL. 


定义 6.2 设 向 量 序列 {ce}, CR". SHAME r= [21,29,..., 2)" E R” RG 


k j 
lim a) = ay, @=1,2,..., 
k- 00 


Reo” 表示 zz 的 第 ;个 分 量 . 则 称 ec KKE x, Bee cl) 的 极限 , 记 为 


lim z® = z. 
天 一 co 


REDS, 我 们 可 以 给 出 矩阵 序列 收敛 的 定义 . 


定义 6.3 HERFS {a d a C Rnxn. 249 4648 A = [aij] € R” 使 得 


1J 


(k) P eR 
jim aij = Qij; iJ = 1; 2N; 


. 6-8 . 


则 称 A kkal A, 即 4 是 4(o 的 极限 , 记 为 


lim A®) = A. 
k-> 00 


SRF Ue) at Fe IAE EFI CE, RITA PAH. 


定理 6.2 设 向 量 序列 {10}, CR, 矩阵 序列 {AM = [a | ae CR”, 则 
(D lim 2) =r <> lim ||z 由 一 z= 二 0, 其 中 |: 中 为 任 一 向 量 范 数 ; 
k- oo k—- oo 


(2) lim A®) = A < 全 Jim ||A® — Al = 0 其 中 中 .| 为 任 一 矩阵 范 数 ; 
一 oo 00 


(3) lim A® =0 —} lim A“) 2 =0, Yz € R”. 
k- oo k-00 


如 果 对 任意 的 初始 向 量 x0, 都 有 dm LE) 一 zy, 则 称 迭 代 格式 (6.8) 是 收敛 的 , 否则 就 称 其 
为 发 散 的 . 
基于 和 矩阵 分 裂 的 迭代 算法 , 其 收敛 性 取决 于 迭代 和 矩阵 的 谱 半 径 . 


Hi FERRER 


it A € Rx”, 则 称 


为 4 的 谱 半 径 , 其 中 c(4) 表示 4 的 所 有 特征 值 组 成 的 集合 . 
谱 半 径 与 矩阵 范 数 之 间 有 如 下 的 关系 . 
引 理 6.3 ( 谱 半径 与 范 数 的 关系 ) HRGER™", N 
(1) 对 任意 算 子 范 数 ,有 p(G) < |G; 


(2) 反之 , 对 任意 = > 0, 都 存在 一 个 算 子 范 数 | llo 使 得 |G|。 < p(Q+e 其 中 范 数 | . | 依 
HT GC foc. 所以, 若 p(G) < 卫 则 存在 算 子 范 数 |‖ . llo 使 得 |G|。< 1; 


证 明 . (1) 设 入 是 G 的 一 个 特征 值 ,对 应 的 特征 向 量 为 z 关 0, 则 由 Gx = Xz 可 得 
Al lell = [Aa] = Gzll < IGI- lall. 


MA] < (|G. 所 以 
p(G) = e Ah < |G]. 


(2) 用 构造 法 证 明 . 设 G 的 Jordan 标准 型 为 也 即 STIGS = J. & D = diag(1,e,e7,...,e"—'), 


则 


入 2 E 
(SD)-1G(SD) = DJD = 


入 2 


[> E 
| 


| 


定义 ‖zlle 全 上 (SPD)-1z|l。. 可 以 证 明 || e 构成 一 个 向 量 范 数 . 由 此 可 得 诱导 范 数 


jae 2 max | 
mae [cle 
(SD)-LGzllw 


= max 


zz0 ||(SD)~*2|loo 


_ nax SPGE(SDI plow 
wo loc 
= ||(SD)“'G(SD) lo 


< 入 
< Pan |}+e 


= p(G) +€. 


由 定理 6.2 和 引 理 6.3, 我 们 可 以 立即 得 到 下 面 的 结论 . 
定理 6.3 4E G c 及 "xm 则 Jim GF =0 SARS p(G) <1. 


谱 半径 与 算 子 范 数 之 间 的 另 一 个 重要 性 质 是 
引 理 6.4 设 GE 了 "xm, 则 对 任意 算 子 范 数 | -||, 有 


lim ||G*||® = p(G). 
下 一 co 


证 明 . 首先 ,我 们 有 
p(G)" = p(G") < le. 


另 一 方面 ,对 任意 s > 0, 1c 


| | 
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WW p(Ge) <1, BC lim GE = 0. 因此 存在 正 整数 N, BAG k > N i, A IGE < 1, BI 


Gt IG*l 
| WG) Fes) (OTe S 
所 以 
p(G) < ||G*|F < p(G) +e. 
由 = 的 任意 性 可 知 , 4 k — oo 时 ,有 |G*||# > p(G). 口 
和 迭代 算法 收敛 性 


下 面 考虑 基于 和 矩阵 分 裂 的 迭代 算法 6.8 的 收敛 性 . 首先 给 出 一 个 迭代 算法 收敛 的 充分 条 
件 . 


引 理 6.5 车 存在 算 子 范 数 上.|, RFF |G] < 1, 则 和 迭代 算法 6.8 收敛 . 


WEAR. h "t+ = Ge) + 9 和 zw = Ga. + g NE 
Tt) 一 t, =G (2 一 ws) i 


故 
pe sor 9-a]; 


依 此 类 推 , 可 得 


EE ET 

由 于 GI <1, M k > oo 时 , 上 式 右 端 -0, 即 ||z4+D — aryl] > 0. 因此 算法 收敛 m 
我 们 记 向 量 e S rH — r, HE k HRR cO 的 误差 向 量 

定理 6.4 (收敛 性 定理 ) 对 任意 迭代 初始 向 量 rO, 迭代 算法 6.8 kkt RBA p(G) <1. 


证 明 . 必要 性 : 用 反 证 法 ,假设 p(G) > 1. 设 和 为 G 的 模 最 大 的 特征 值 , 即 | 和 | = p(G) > 1. 4 2 £0 
为 其 对 应 的 特征 向 量 . 取 和 迭代 初始 向 量 rO = zx + a, 则 


a) — g, = G(a"-) — r.) =- G(r — 2,) = Gha = dx, 


可 能 收敛 到 0, 即 算法 不 收敛 . 故 假设 不 成 立 ,因此 p(G) <1 
充分 性 : Æ p(G) < 1, 则 由 引 理 6.3 可 知 , 存在 一 个 算 子 范 数 |) . ||。 使 得 |Gll。< 1. 再 由 引 理 
6.5 可 知 , 算法 收敛 . E 


定义 6.4 2 G AEREE, 则 和 迭代 算法 6.8 的 平均 收敛 速度 定义 为 


Ri(G) ê —In||G* ||, 


R(G) = lim Ri(G) = —Inp(G). 


k- oo 


定理 6.5 考虑 和 迭代 算法 6.8. 如 果 存 在 某 个 算 子 范 数 ‖ - || RF |G] =a < 1, m 
(1) zt — zl < or) 一 zs 


(2) ||2® —2,l| < 4 lo — oY 
=q 


q! 
3) lz -zol < 


证 明 . 
(1) 由 zf0 = Gz( + 9g Ma, = Gz 十 9 可 得 


(k+l) 一 To =G (z® = J 和 sD -r =G (2 = ta) l 
因此 有 


x9 — wel] < gle — zx]. (6.10) 


反复 利用 结论 (6.10) 即 可 得 |x — zs < qx) — xl. 
(2) 由 于 


2D — 2] = | 一 2 — (zs 一 et) 


> lz = 2 || = les = s+] 


> (1—4q)||z. — 2]. 


结合 (6.22) 可 得 


1 


q z 
1-4 2 — 29]. 


BOND 
læs — 2 


(3) 反复 利用 (6.22) 即 可 得 


oD — 2] < ga — sO], 
所 以 
k 
les- zx < fy pH) -P| < ye -O 
1—g l-q 
口 


一 般 来 说 , 基于 和 矩阵 分 裂 的 好 的 迭代 算法 应 该 满足 : (1) p(G) 很 小 ; (2) MIN 和 MD 容易 
计算 ,或 者 以 M 为 系数 矩阵 的 线性 方程 组 比较 容易 求解 . 


6.2.2 Jacobi 和 迭代 


将 矩阵 4 分 裂 为 
A=D-L-U, 
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其 中 万 为 4 的 对 角 线 部 分 , —L 和 一 U 分 别 为 4 的 严格 下 三 角 和 严格 上 三 角 部 分 . 


在 矩阵 分 裂 4= M— N 中 取 M=D,N= 工 + 局 则 可 得 Jacobi 和 迭代 算法 : 


ptt) 一 D-1(L+ U)x) +D-'b, k=0,1,2,.... 
REEN 

G; = D!(L a U). 
写成 分 量 形式 即 为 


n 
k+1 1 (k) ;— 
xl -a > Aijt} ) t= L 2ra 


j=1j#1 


(6.11) 


IP 由 于 Jacobi 迭代 中 a) 的 更 新 顺序 与 i 无 关 , 即 可 以 按 顺 序 i = 1,2,...,n 计 算 ,也 可 以 
按 顺序 i = n,n 一 1,.….,2,1 计算 ,或 者 乱 序 计算 . 因此 Jacobi 迭代 非常 适合 并 行 计算 . 


1: Choose an initial guess x(0) 


2: while not converge do 


3: fori = 1 to n do 

4: gt» = [ 一 D ve) [ais 
j=l j#i 

5: end for 

6: end while 


我 们 有 时 也 将 Jacobi 迭代 格式 写 为 


a+) = gC) + DHb— Az) = £) + D-'r,, &=0,1,2,... 


其 中 x Ê b — Ac FE k KUA HIRE. 
下 面 给 出 求解 二 维 离散 Poison 方程 (6.5) 的 Jacobi 迭代 算法 . 


ae 


算法 6.2 求解 二 维 离散 Poisson 方程 的 Jacobi HAIN 


, 


1: Choose an initial guess v) 
2: while not converge do 
3: for i = 1 to N do 


4 for j = 1 to N do 
k+l k k k $ 
5 ug = (Phs tuag tuy Huia + ua) ie 
6: end for 
7 end for 
8: end while 
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6.2.3 Gauss-Seidel 和 迭代 
EIZ A = M -N PRM = D — L, N = U, Blal4$ Gauss-Seidel (G-S) 迭代 算法 : 


迭代 矩阵 为 


将 G-S 迭代 改写 为 


即 可 得 分 量 形式 


perl) 一 (pe L) Uc) +(D— L) tb. (6.12) 


Ges = (D — L)“tU. 


De®) = La®) 4 Uae® +b, 


算法 6.3 求解 线性 方程 组 的 G-S 迭代 算法 


1: Choose an initial guess rO 


2: while not converge do 


3: fori = 1 to n do 
1 

4: gët» = — 
Qi 

5: end for 

6: end while 


i-l n 
b- Saya D asat?) 
= 


由 于 G-S 算法 能 充分 利用 已 经 获得 的 最 新 数据 , 故 通常 比 Jacobi 算法 快速 . 与 Jacobi 迭代 算 


法 类 似 , 我 们 也 可 以 给 出 求解 问题 (6.5) 的 G-S 迭代 算法 . 注意 , 此 时 未 知 量 的 更 新 是 按 自然 顺序 


进行 的 . 由 于 在 对 未 知 量 进行 更 新 时 必须 按照 i = 1,2,...,n 的 顺序 进行 , 因此 不 适合 并 行 计算 . 
下 面 我 们 介绍 一 种 适合 并 行 计算 的 更 新 顺序 : 红 黑 排序 , 即 
将 二 维 网 格 点 依次 做 红 黑 记号 , 如 右 图 所 示 . 
在 计算 过 程 中 , 对 未 知 量 的 值 进行 更 新 时 , 我 们 可 以 先 更 新 
红色 市 点 , 此 时 所 使 用 的 只 是 黑色 节点 的 数据 , 然后 再 更 新 黑色 
节点 , 这 时 使 用 的 是 红色 节点 的 数据 . 于 是 我 们 得 到 下 面 红 黑 排 


序 G-S 迭代 算法 . 


由 于 在 更 新 红 点 时 , 各 个 点 之 间 是 相互 独立 的 , 因此 可 以 并 
行 计算 . 同样 , 在 更 新 黑 点 时 , 各 个 点 之 间 也 是 相互 独立 的 , 因此 


也 可 以 并 行 计算 . 
算法 6.4 求解 二 维 离散 Poisson 方程 的 红 黑 排序 G-S 迭代 算法 


1: Choose an initial guess ví 


0) 


2: while not converge do 
3: for (i, 7) 为 红色 节点 do 
k+1)_ 1 k 
4: i= 4 (Wf 二 二 二 J 


i,j 


(k) (k) (k) 
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5: end for 
e for (i, j) 为 黑色 节点 do 


k+1 1 (k+1 k+1 k+1 k+1 
7: 4 ) = a (hfis a nye 7 a ay + ae 十 oy) 
8: end for 
9: end while 


6.24 SORIEK 

在 G-S 算法 的 基础 上 , 我 们 可 以 通过 引入 一 个 松弛 参数 w 来 加 快 收敛 速度 . 这 就 是 SOR 
(Successive Overrelaxation) 算法 [45]. 该 方法 的 基本 思想 是 将 G-S 算法 中 的 第 大 + 工 步 近似 解 与 第 
有 步 近 似 解 做 一 个 加 权 平 均 , 从 而 给 出 一 个 新 的 近似 解 , 即 


Ged) 一 Ge w)a*) by (D {Ea + Ux) ae D'o) . (6.13) 
整理 后 即 为 
zt = (D — wE) (1 -wD+wU) 2™ + w(D - wh), (6.14) 


其 中 w 称 为 松弛 参数 (relaxation parameter). 当 w = 1 时 , SOR 即 为 G-S 算法 , 当 w < 1 时 , 称 为 低 
松弛 (under relaxation) 算法 , “4 w > 1 时 , 称 为 超 松弛 (over relaxation) 算法 . SOR 算法 曾经 在 很 长 
一 段 时 间 内 是 科学 计算 中 求解 线性 方程 组 的 首选 方法 . 在 大 多 数 情况 下 , 当 w > 1 时 会 取得 比较 
好 的 收敛 效果 . 


SOR 的 迭代 和 矩阵 为 
对 应 的 矩阵 分 裂 为 
Dy Ne p +U. 


由 (6.14) 可 得 SOR 迭代 的 分 量 形式 为 


PD T 2 (> -S Pan y va) 


Qi j=l j=itl 


i-1 
EONO SNELA fp (k+1) (k) 
= Ti + aa (> X aija! -Do ) 


算法 6.5 求解 线性 方程 组 的 SOR 迭代 算法 


1: Choose an initial guess x(0) and parameter w 


2: while not converge do 


3: fori = 1 to n do 
w 

4: g =(1- w) a” 十 一 (e E ajs er 一 aija! > 
ii j=l j=i+1 

5: end for 


6: end while 


SOR 算法 最 大 的 优点 是 引入 了 松弛 参数 co, 通过 选取 适当 的 w 可 以 大 大 提高 算法 的 收敛 速 
度 . 但 是 SOR 算 法 最 大 的 难点 就 是 如 何 选取 最 优 的 参数 


算法 6.6 求解 二 维 离散 Poisson 方程 的 红 黑 排序 SOR 迭代 算法 


1: Choose an initial guess v) and parameter w 


2: while not converge do 
3: for (i,j) JAETA do 


k+1 k k k k k 
4: ) = (1- wo + w(h? fij + TF + TEF T ui 十 uy A 
5: end for 
6: for (i, 7) AMAT do 

k+1 k k+1 k+1 k+1 k+1 
7: ul) oo ah fag but? tat u atA 
8: end for 
9: end while 


6.2.5 SSOR 迭代 算法 
将 SOR 算 法 中 的 工 和 U 相交 换 , 即 可 得 迭代 格式 


Ht) = (D — wU) (wD+wL) rN +w(D — wU) tob, 


将 这 个 迭代 格式 与 SOR 相 结合 , 就 可 以 得 到 下 面 的 两 步 迭代 算法 


Fee 


x3) = (D — wL)! [(1 - w)D + w]e +w(D wr) 1b 
z*+D = (D — WU) [A — w)D +L ty) wD — wd) 


这 就 是 SSOR 和 迭代 (对 称 超 松弛 ) 算法 , 相当 于 将 工 与 U 同等 看 待 , 交替 做 两 次 SOR 迭代 . 
消去 中 间 迭 代 向 量 Ata), 可 得 


rt) 一 Gssorz +g, 
HEPER 


Gssor = (D—wU) [(1 — w) D + wL] (D — wL) H [(1 — w)D + wU]. 


对 应 的 矩阵 分 裂 为 
1 2 —1 
_ 1 1p _ 
= zg- P -DD (D0) 
1 


Oa 


[(1 —w)D + wL]D7"[(1-—w)D + wU]. 


| E 对 于 某 些 特殊 问题 , SOR 算法 不 收敛 ,但 仍然 可 能 构造 出 收敛 的 SSOR 算法 . 


IS 一 般 来 说 , SOR 算法 的 渐进 收敛 速度 对 参数 w 比较 敏感 , 但 SSOR 对 参数 w 不 太 敏感 


算法 6.7 SSOR 算法 


1: Choose an initial guess v and parameter w 


2: while not converge do 


3: fori = 1 to n do 
k+ w = k+} n 
4: z ta) = (1— w)a*) 让 [ = ajz! 2) _ > aat) 
Qii j=l j=i+1 
5: end for 
6: fori = n to 1 do 
1 a1 eal n 
7: gt» =(1— weht? + =a (e -> aija? aa S T 
ii j=1 j=i+1 
8: end for 
9: end while 


6.2.6 AOR ŽIR 
Hadjidimos F 1978 年 提出 了 AOR (Accelerated over-relaxation, 快速 松弛 ) 算法 , EAU 


Gaor = (D—7L)"[(1 w)D+(w—7L+ wU], 


EP y All w 为 松弛 参数 . 对 应 的 矩阵 分 解 为 
ve LD =gh N= Ha su Dyw- ME Pull, 


(1) žy = w 时 , AOR 算 法 即 为 SOR 算法 ; 
(2) %4 y = w = 1 了 时, AOR 算法 即 为 G-S 算法 ; 
(3) 当 y = 0,w = 1 时 , AOR 算 法 即 为 Jacobi 算 法 . 


| 号 H SSOR 类 似 ,我 们 也 可 以 定义 SAOR 算 法 . 


6.2.7 Richardson 算法 
Richardson 算法 是 一 类 形式 非常 简单 的 算法 , 其 迭代 格式 为 


okt) — g) twb Ax), k=0,1,2,.... 


其 对 应 的 矩阵 分 解 为 


迭代 矩阵 为 


定理 6.6 R A cR?” 是 对 称 正 定 矩 阵 , | 和 入 ,分别 是 4 的 最 大 和 最 小 特征 值 , 则 Richardson 
Hie BS 


1 
0 < w < 一 . 
Ww P 


wx = arg min p(Gr) = 
Ww 


即 当 w = w, 时 , 迭代 矩阵 的 谱 半 径 达 到 最 小 , 且 有 


1 — wàn 
Ai — An = K(A) 一 
Mtn «(A)+1 
WA1 — 1 


如 果 在 每 次 迭代 时 取 不 同 的 参数 , 即 
rEtD = g) 十 wg(b 一 Ax'*)), Bh O12 osc 
则 称 为 nonstationary Richardson 算法 . 


6.2.8 ”分 块 和 迭代 算法 
前 面 介绍 的 迭代 算法 可 以 推广 到 分 块 情形 . 将 4 


写成 如 下 的 分 块 形式 : Ay 
Ay, 
Ay Ai °°: Alp 
anes 
Api Ape o a 
A= D- L-U, i} D, -L, —U 451 A 的 块 对 > 
fa, BR EF = Fa PR a = FA IE. 则 相应 的 分 PP 


E Jacobi, 分 块 Gauss-Seidel 和 分 块 SOR 算法 分 别 为 
e 分 块 Jacobi HEAR: 


j=l, j#i 
e 分 块 Gauss-seidel 44K: 
i— 1 p 
Aus *) = b; — Y Aight) = > Aigo, 4=1,2,...,p. 
j=l j=i+1 


e 分 块 SOR 迭代 : 


i—1 p 
z+) =(1- w) ar") + wA;,! [> = Y Ayat 一 > aa) : 


63 和 迭代 算法 的 收敛 性 


对 于 和 矩阵 分 裂 迭 代 算 法 , 其 收敛 的 充 要 条 件 是 迭代 矩阵 的 谱 半 径 小 于 1. 当 谱 半径 不 可 求 时 ， 
如 果 和 迭代 矩阵 的 某 个 算 子 范 数 小 于 1 则 算法 也 收敛. 


6.3.1 ”二 维 离散 Poisson 方程 的 Jacobi, G-S 和 SOR 算法 的 收敛 性 


考虑 这 些 算法 的 收敛 性 , 只 需 研 究 相 应 的 迭代 和 矩阵 的 谱 半 径 即 可 . 对 于 二 维 离散 Poisson 方 
A=T=I1®T,+Tn @ I. 


故 Jacobi FIA MI RAEE AN 
G; = D7}H(L +U) = 4) t41 — T) = I — T/4. (6.15) 
由 于 了 的 特征 值 为 
Ai + Aj = 2 (1 cos 7") + 2 (1 cos 7) 一 4 一 2 (cos + 00s 7) : 


所 以 Gy 的 特征 值 为 


故 


即 Jacobi 算 法 是 收敛 的 . 
注意 当 nn 越 来 越 大 时 , «(T) 一 00, 即 工 越 来 越 病态 , 此 时 p(G;) 一 1, 即 Jacobi 算法 收敛 越 来 
E 通常 ,问题 越 病态 , 迭代 算法 的 收敛 就 越 慢 | 


关于 G-S 算法 和 SOR 算法 ,我 们 有 下 面 的 结论 . 


性 质 6.1 设 Gos 和 Gson 分 别 表 示 求 解 二 维 Poisson 方程 的 红 黑 排序 的 G-S 算法 和 SOR 算法 的 
EREE, 则 有 


(6.16) 


(6.17) 


在 上 述 结论 中 , SOR 算法 中 的 w 是 最 优 参 数 , 即 此 时 的 p(Gsoa) 最 小 . 由 Taylor 公式 可 知 , 当 
n 很 大 时 ,有 


T T? 1 
PCy oe n+12 7! o( | 


AFŽ n 很 大 时 有 


即 SOR 算法 迭代 天 步 后 误差 的 减 小 量 与 Jacobi 算法 迭代 kn 步 后 误差 减 小 量 差不多 . 因此 , 对 于 
二 维 离散 Poisson 方程 , 当 SOR 算法 取 最 优 参数 时 , 收敛 速度 大 约 是 Jacobi 算法 的 nn 售 . 


OE 这 里 需要 指出 的 是 , 对 于 一 般 线性 方程 组 , 上 述 结论 不 一 定 成 立 . | 


由 于 p(Ges) = p(Gj)*, 因 此, 对 于 二 维 离散 Poisson 方程 , G-S 算法 的 收敛 速度 大 约 是 Jacobi 
算法 的 2 售 . 
(E 事实 上 , M n RKR, 这 三 个 算法 的 收敛 速度 都 很 慢 . ) 


例 6.1 已 知 二 维 Poisson 方程 


eee = 一], (x,y) EN 


2 2 


u(x, y) = To 


a? 
其 中 Q = (0,1) x (0,1). 该 方程 的 解析 解 是 (zx,y) = 了 一. 用 五 点 差分 格式 离散 后 得 到 一 个 
线性 方程 组 , 分 别 用 Jacobi, G-S 和 SOR 算法 计算 这 个 方程 组 的 解 ,并 比较 收敛 效果 


解 . 见 程序 Jacobi_GS_SOR_Poisson.m. 下 图 中 画 出 了 N = 16, 32, 64, 128 AY, 这 三 种 算法 的 相 
对 误差 下 降 情 况 . 


. 6-20 . 


是 N=16 


250 


o N=64 o N=128 


1 1 1 1 1 
0 50 100 150 200 250 0 50 100 150 200 250 


6.1 Jacobi, G-S 和 SOR 算法 的 相对 误差 下 降 情况 . 


6.3.2 不 可 约 对 角 占 优 
我 们 首先 给 出 不 可 约 和 矩阵 的 定义 . 
定义 6.5 设 4E Rn"xm, 如 果 存 在 置换 矩阵 P, 使 得 PAPT 为 块 上 三 角 和 矩阵 , 即 


Ait Aj 


PAP! = 
Age 


其 中 AY eR (1 < k < n) WA A AM AGE, I NAR A A A AEE. 


下 面 的 定理 可 用 于 判别 一 个 矩阵 是 否 可 约 . 


定理 6.7 设 4e Rnxm 指标 集 Z = {1,2,...,..,n}. 则 4 可 约 的 充 要 条 件 是 存在 非 空 指标 集 
J C Zn AI AF Zn, 使 得 


aij = 0, tEJAEZ, \ J. 
这 里 Zn \ JAT JE Zn 中 的 补 集 . 


证 明 . 留 作 练习 . 口 
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我 们 知道 ,严格 对 角 占 优 和 矩阵 是 非 奇 异 的 , 见 定理 1.18. 如 果 4 EAS AT AS RT fA I, 
则 可 以 同样 证 明 4 是 非 奇 异 的 . 


定理 6.8 A AER” RAWAM Gt A bE, 则 ASEH. 


证 明 . 我 们 采用 反 证 法 . 假设 4 是 奇异 的 , 即 存在 特征 值 = 0. 设 其 对 应 的 非 零 特征 值 向 量 为 
x = [zlz2 Zn] 满足 zl = 二 即 |zil 和 17 =1,2,...,n, 且 存 在 指标 ”使 得 |zr| = 1. 定 
义 指 标 集 

J = 人 TeEZn:lzr=1 
H Ar = Ar = 0 可知, 任意 的 re J, A 


m 
App Ly 一 一 J Op Lj. 


j=l jer 
所 以 
larr| < a> larg] * zz] < > larjl, (6.18) 

P LjAr jal jAr 
其 中 等 号 成 立 当 且 仅 当 

ar =0, j EZrn\J. (6.19) 
由 于 A 是 弱 对 角 占 优 的 , 故 ， 

|orr| = ». larjl. 

j=l ier 
所 以 结论 (6.19) 对 所 有 的 r © J 都 成 立 . 
显然 ,了 是 非 空 的 . 下 面 我 们 说 明 J A Zn. 否则 的 话 , 如 果 J = Zn ; 则 由 (6.18) 可 知 A 不 可 能 

是 弱 对 角 占 优 的 . 所 以 J 非 空 且 J A Zn. 由 定理 6.7 可 知 4 是 可 约 的 ,这 与 条 件 4 不 可 约 矛 盾 . 所 
以 ,入 = 0 不 是 A 的 特征 值 , 即 A 非 奇异 . 口 


定理 6.9 设 4ERnxn, 若 4 严格 对 角 占 优 , 则 Jacobi 算法 和 G-S 算法 都 收敛 , 且 


|Gaslloo < ||Gslloo < 1. 


WERA. 首先 证 明 ||Galloo < 1. 由 于 4 严格 行 对 角 占 优 , 故 > |aij|/laiil < 1. 所 以 
j#t 


jaijl _ 
laal ~ 


IGillw = 1D7™ (L+ Ul = max 2 


S L= DLHÚ = DHU. W L Ext F =e, he E” = 0, 所 以 


下 面 证 明 ||Geslloo < IlG] 只 和 需 证 明 |Gosle < |Gyle 即 可 ,其 中 e = [1,1,..., U7. 


(TD 


|Gesle = |(D — L) Vle=|(1- L) le 
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=| ++ +--+ Et Üle 
< (I +|’ + |l? +--+ EP Ū]e 
= (I — |L) tIUle. (6.20) 


由 A KOPRI SETA 1 — Zya tl > 0, B(T- JË- (Õe > 0. BUI [Z| > 0 可 得 


aiil 


0 < JA =|£) — |Ŭ])e =F) — |Č? + |Ŭ| = |] - |Ū| — |Ŭ e 
= ((7 — IŽ (Č + |O|) - |e, 


BN \Ule < (I —|L|)(\L| + |U |e. 两 边 同 乘 (1 一 |L|)-! > 0 可 得 


(T= "Ue < (\L| + |U))e. 


X |L| + |Ŭ| =|D-(L + U)| = [G5], H (6.20) 可 知 |Gesle < |Gsle, 即 定理 结论 成 立 . o 
| 喇 当 4 是 严格 列 对 角 占 优 时 ,该 结论 也 成 立 . | 


定理 6.10 设 A eR"Xx", 若 A 是 弱 对 角 占 优 且 不 可 约 , N Jacobi 算法 和 G-S 算法 都 收敛， 


p(Gas) < p(Gs) < 1. 


证 明 . 略 . (可 参见 [44]) o 


1 二 维 离散 Poisson I ALES ATMA ADELA, HOM Jacobi 算 法 和 G-S PRAAK 


E 上 述 定理 中 的 结论 对 一 般 和 矩阵 并 不 成 立 : XFER, Jacobi 算法 收敛 , 但 G-S 算法 却 不 一 | 
定 收敛 . 


6.3.3 ”对称 正定 和 矩阵 


引 理 6.6 设 4EeCnxn Hermite 对 称 , 且 4= M-N 是 4 的 一 个 矩阵 分 型, 则 Mr* 十 NN 也 是 
Hermite 对 称 , 且 对 任意 EC 有 


x* Ax — IA = u*(M*4+N)u, 


He j= M-!Na,u=2-Z. 


证 明 . 由 于 A Hermite XJK, PL, M* + N = M* + M — Ath Hermite 对 称 . 
HF = M—!Na, PV Mz = Na, 因此 


Mu = Ma- Mz = Mz -— Na = Az, 
Nu = Nz — Ni= Mi— N&= Az. 


由 M* 十 六 的 对 称 性 可 知 M=M* 二 NN 一 NN*. 又 (Nz)* = (ME)*, 所 以 


x* Ax — XAG = x“ Mu-z* Nu 


. 6-23 . 


= 2*(M*+N—-N*)u—z*Nu 

= x* M*u — rT N*ut+a*Nu— Nu 
= z“ M*u — Mut+w Nu 

= u*(M* + N)u. 


5138 6.7 ACR" 对 称 , 且 4=M-N 是 4 的 一 个 矩阵 分 裂 . 
(1) 如 果 4 和 MT+N 都 是 正定 矩阵 , 则 JM 非 奇 异 且 p(M-1IN) <1; 


(2) 如 果 p(M-LN) <1BM74+N 正定 , 则 A 正定 . 


WEAR. (1) 首先 证 明 M 是 非 奇异 的 . 用 反 证 法 ,假设 M 奇异 , 则 存在 非 零 向 量 z 使 得 Me = 0, 故 有 
a? M? = (Mz)? = 0. 又 4 对 称 正 定 ,所 以 zzOMX+MIT — A)z = -2z74z<0 与 M+MT -4 
对 称 正定 矛盾 , 故 M 非 奇异 . 

下 面 证 明 (MEN) < 1. i8 à c CH MIN 的 一 个 特征 值 ,对 应 的 特征 向 量 为 xz Æ 0, 即 


M-INz = MM. 


我 们 首先 说 明 A A 1. 假设 入 = 1, 则 可 得 Mz = Nz, 即 Ar = 0. 由 于 4 非 奇异 ,所 以 z = 0, 矛 盾 . 
今 = M71Nz = àr, u = z — ț = (1 一 入 zx. 则 由 引 理 6.6 可 得 
(1 — |A|?)x* Ax = |1 — Mr* (MT + N)z. 
FHF A AM? + N ARETE RE EI, PDA Esti ATE, We |A| < 1. 因此 p(M-1N) < 1. 
(2) 反 证 法 . 假设 A 不 是 正定 的 . 由 于 p( M1) < 二 所 以 4= M(I — M-LN) 非 奇异 ,因此 
存在 zt0) e R”, 使 得 
nê (2) Ar <0. 


z = M-*N2®-), k=1,2,.... 
由 p(M-1N) <1 可知 

lim x) = lim (M~1N)¥z = 0. (6.21) 

k- co 大 一 oo 
S u) = zk — r), 则 由 引 理 6.6 可 得 

T T T 
(sw Ag) — (2) Ax“) = (u) (MT +N ~u. 

由 于 MT +N 对 称 正 定 , 上 式 右 端 非 负 , 所 以 


(©) Ag) 


IA 
一 一 
a. 
= 
- 
NS 
El 
D 
8 
F 
= 


依 此 类 推 , 可 得 了 
(2) Ax) < (2) Az =n <0. 


这 与 (6.21) 矛盾 . 因此 4 一 定 是 正定 的 . 口 
我 们 首先 给 出 SOR 迭代 收敛 的 一 个 必要 条 件 . 


定理 6.11 对 于 SOR 算法 , 有 p(Gsor) > |1 — w|, HK SOR 算法 收 敏 的 必要 条 件 是 0<w < 2. 


证 明 . SOR 算法 的 迭代 年 阵 为 


Gsor = (D—wL)71((1—w)D + wU) = (I — wi) ((1—w)I + wÙ). 
所 以 Gsor 的 行列 式 为 


det (Gsor) = det ((I — wL’) - det((1 — w)I + w) 
= (det(I = w) =w)” 
=(1- w)”. 


设 Gsor 的 特征 为 1, M2, ..., Mn, 则 
入 1 和 2 aragi An = det (Gsor) (1 = w)”, 


故 至 少 有 一 个 特征 值 的 绝对 值 不 小 于 |1 一 wl, 即 p(Gsor) > |1 一 wl. 
E SOR WS, M p(Gsor) < 1, At |1 -w| < 1, B00 <w < 2. o 


定理 6.12 HACER” 对 称 正定 . 
(1) 若 2D 一 A LR, Wl Jacobi BRAS. 


(2) 若 0<w<2 则 SOR 和 SSOR WSK. 
(3) G-S ZAR ISk. 


证 明 . 留 作 练 习 (利用 引 理 6.7). O 


1S 若 系数 矩阵 对 称 正定 , I SOR 算法 收敛 的 充 要 条 件 是 0 < w < 2. | 


| 号 对 于 二 维 离散 Poisson 方程 , 其 系数 矩阵 是 对 称 正定 的 , 故 当 0 < w < 2 时 ,SOR 算法 收敛， 


定理 6.13 设 ACR” 对 称 . 
(1) # 2D — A LRA Jacobi 迭代 收敛 , 则 A 正定 ; 


(2) Æ D EZ, 且 存 在 we (0,2) 使 得 SOR (或 SSOR) 收敛 , 则 A ER; 
(3) # D EZ, 且 G-S 迭代 收敛 , 则 A 正定. 


证 明 . 留 作 练 习 (利用 引 理 6.7). O 


6.3.4 IRIT EE 
针对 一 类 特殊 的 矩阵, 这 三 种 迭代 算法 的 谱 半径 之 间 存 在 一 种 特殊 的 关系 . 
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定义 6.6 KACR"™”, 如 果 存 在 一 个 置换 矩阵 P, 使 得 


D, F 
E Də 


PAP? = 


, 


其 中 Di, D2 AX AHER, 则 称 4 具有 性 质 A . 


例 6.2 对 于 二 维 离散 Poisson 方程 , 系数 矩阵 Tye 具有 性 质 A. 事 实 上 , BE Tyo 为 模型 问题 采用 红 
黑 排 序 后 的 系数 矩阵 , W Tyo 具有 (6.22) 的 结构 . 


我 们 首先 给 出 一 个 性 质 . 
引 理 6.8 ABER” 具有 下 面 的 结构 


0 Bi? 
Boy 0 


Ed 


4 Br 和 By PHAR BB 的 下 三 角 和 上 三 角 部 分 , 则 
(1) Æ u Æ B 的 特征 值 , 则 一 1 也 是 B 的 特征 值 ; 
(2) B(a) 的 特征 值 与 a 无 关 , 其 中 


1 
Bia) =aB,+—Bu, aF0. 
a 


证 明 . (1) Æ [x, y] 是 B 的 对 应 于 的 特征 向 量 , 则 [x, 一 让 是 BB 对 应 于 一 4 的 特征 向 量 . 
(2) 由 于 a 夫 0, 我 们 有 


_1 
I 0 ralh ® 
| "| aie k "| | 1y 


故 引 理 结论 成 立 . 口 


I 0 
0 al 


0 Bir 
Ba 0 


0 +B 
aBo 0 


IE 由 引 理 6.8 中 结论 (2) 可 知 , Bla) + BL 的 特征 值 也 与 a 无 关 ,其 中 6 为 任意 常数 | 


OE 该 结论 可 以 推广 到 块 三 对 角形 式 , 见习 题 6.6. ) 


i A ERO” 的 对 角 线 元 素 全 不 为 零 , W L= DL, Ü = DU. 


定义 6.7 RAER 的 对 角 线 元 素 全 不 为 堆 , 4 = DUI- Ï- Ü) $44 Gla) =0b+10 t 


特征 值 与 a AX, Wa 4 具有 相 容 次 序 . 


IF 设 4 的 对 角 线 元 素 全 不 为 零 , 若 4 具有 性 质 A, 则 存在 置换 矩阵 P, 使 得 PAPT 具有 相 容 
次 序 . 
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例 6.3 i Dj REAR ATT AE, 则 任意 块 三 对 角 和 矩阵 


Di A | 


都 有 相 容 次 序 (参见 习题 6.6). 


定理 6.14 设 A 有 相 容 次 序 且 w 关 0, 则 下 列 命 题 成 立 
(1) Jacobi & FES G, 的 特征 值 正 负 成 对 出 现 ; 
(2) 若 几 是 Gj 的 特征 值 且 入 满足 


(A+w— 1) = Xwo202， 


则 入 是 SOR 和 迭代 矩阵 Gson 的 一 个 特征 值 ; 
(3) RZ, Æ A Z0 Æ Goon 的 一 个 特征 值 且 u XA (6.23), N) u Æ Gy 的 一 个 特征 值 . 


证 明 . (1) AH G; = G(1). 8 we G(1) 的 特征 值 ,因为 G(-1) = 一 G(1), 所 以 -1 是 G(-1) 的 特 
征 值 . 又 G(a) 的 特征 值 与 a 无 关 , 故 -也 是 G(1) 的 特征 值 , 所 以 命题 结论 成 立 . 

(2) Æ à = 0, 则 由 (6.23) 可 知 w = 1 此 时 Gsorn = (I 一 L)-10 为 奇异 矩阵 , 故 和 = 0 是 其 特 
征 值 , 即 命题 结论 成 立 . 

F #0, Wl Gson 的 特征 多 项 式 为 


det(AI — Gson) = det (AI — (7 — wË) ((1 — w)I + wÜ) ) 


= det (a -wh)-) - det (A(T wh) —(—w)I wÜ) 
= det ((A + w — 1)I — ML-wU) 
saa a ea 


= (\w?)"/? det (人 = =L 0) , (6.24) 


其 中 最 后 一 个 等 式 由 引 理 6.7 推 得 . & 
_ 和 +w—1 
= V Aw? 
则 由 (6.24) 和 性 质 (1) 可 知 入 是 Goon 的 特征 值 当 且 仅 当 1/ Gr = L +U KRE, 即 命题 结论 
成 立 . 
(3) 已 经 由 (2) 证 明 . 口 


即 (入 十 w 一 1 = wR, 


推论 6.15 车 4 具有 相 容 次 序 , 则 p(Ges) = p(G;)’, 即 当 Jacobi 算 法 收敛 时 , G-S 算法 比 Jacobi $ 


法 快 一 倍 ， 
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例 6.4 采用 红 黑 排序 的 二 维 离散 Poisson 方程 , 系数 矩阵 Tye 具有 相 容 次 序 , 故 有 p(Ges) = 
p(Gs)?. 
下 面 是 关于 SOR 算法 的 最 优 参数 选取 . 
定理 6.16 设 A 具 有 相 容 次 序 , Gj 的 特征 值 全 部 为 实数 , E py = p(GJ) <1, MW SOR 算法 的 最 优 


参数 为 5 


Wopt = == |» 
1+4/1—- 9% 


p 


P(Gsor) = Wopt l= 


(yay 


Wopt SW < 2 


1 1 5 
50 py + wpsy\/l—w + py, 0 <w < Wopt 


WEAR. 直接 求解 等 式 (6.23), 分 情况 讨论 即 可 . 口 


例 6.5 采用 红 黑 排序 的 二 维 离散 Poisson 问题 的 系数 矩阵 Tyo 具有 相 容 次 序 , H. Gj 是 对 称 的 , 即 
Gy 的 特征 值 都 是 实 的 . 又 由 系数 矩阵 的 弱 对 角 占 优 和 不 可 约 性 质 可 知 p(Gj) < 1, 故 上 述 定 理 的 
条 件 均 满足 . 
6.3.5 M 和 矩阵 与 A Se 

参见 胡 家 赣 [47] 和 徐 树 方 [52]. 


To be continued ... 
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6.4 加 速算 法 

ETE zz rO, 2) 已 经 计算 出 来 后 ,我 们 可 以 对 其 进行 组 合 , 得 到 一 个 新 的 近 
似 解 , 这 样 就 可 以 对 原 算 法 进行 加 速 . 
6.4.1 ”外 推 技术 

设 原 迭 代 格 式 为 


elt) = Gel®) +b. (6.25) 
由 zt Aa’) 加 权 组 合 后 可 得 新 的 近似 解 
ZHI 一 (一 ww)zto + w(Gr +b), (6.26) 


其 中 w 是 参数 . 这 种 加 速 方法 就 称 为 外 推算 法 . 

OS WR IEF SU Gauss-Seidel 迭代 , 虽然 SOR 与 外 推算 法 (6.26) 都 是 通过 加 权 进 行 加 速 ， 
但 格式 是 不 一 样 的 : 前 者 是 在 单个 分 量 计算 出 来 后 就 进行 加 权 , 而 后 者 则 是 当 所 有 分 量 都 
计算 出 来 后 才 加 权 . 


为 了 使 得 迭代 格式 (6.26) 尽 可 能 快 地 收敛 , 需要 选择 w 使 得 其 迭代 和 矩阵 Gu = (1 -w)I +wG 
的 谱 半 径 尽 可 能 地 小 . 假设 G 的 特征 值 都 是 实数 , 且 最 大 特征 值 和 最 小 特征 值 分 别 为 X 和 An. 于 


FE 


p(Gu) = max |(1—w) +wAl| = max{|1 — w + wå1ļ, |1 — w + wànl}. 


x | 
和 XEa(G) 


定理 6.17 设 G 的 特征 值 都 是 实数 ,其 最 大 和 最 小 特征 值 分 别 为 和 1 Ay, 且 1 g [An Ai], 则 


= 2 
7 2— (Ay + An)’ 


ws = arg min p(G.,,) 
CU 


此 时 
p(Gu,) = 1 — lwxld, 


其 中 d 是 1 到 [和 ,和 的 距离 , 即 当 和 <A. <1, d=1-A, HAS Anl, d= àn. 


WEAR. 先 考虑 Xi < 1 的 情形 . 此 时 有 


1 — w+ Anw, w <0; 
ea aa 工 一 w 十 和 lw， 0 < w < w; 
一 1 一 Anw 十 w， w> wx. 
显然 , 当 w = w, 时 取 最 小 值 . 
对 于 An > 1 的 情形 , 可 以 进行 类 似 的 讨论 . 口 
由 定理 6.17 可 知 , p(Gu,) = 1—|ux|d, H% ws A 1, 外 推送 代 (6.26) 比 原 迭代 算法 收敛 要 更 
快 一 些 . 
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E 最 优 参数 依赖 于 原 迭 代 和 矩阵 G 的 特征 值 , 因此 实用 性 不 强 . 在 实际 应 用 时 可 以 估计 特征 值 
所 在 的 区 间 [a,b], 然后 用 2 来 代替 An PI AL. 


JOR 算法 
对 Jacobi 和 欠 代 进行 外 推 加 速 , 则 可 得 JOR (Jacobi over-relaxation) 算法 : 
aD) = (1 — w)e) +w( DHL + U)x) + Dto) 


=r) 4+wD"(b- Ar), &=0,1,2,.... 


定理 6.18 设 4 对 称 正 定 . = 


N| JOR 算法 收敛 . 


6.4.2 ”Chebyshev 加 速 

ASA XT IPED TS EAT HE) 

假定 通过 迭代 格式 (6.25) BAPE rO, 0,2), 下面 考虑 如 何 将 这 些 近似 解 进 行 组 
合 , 以 便 得 到 更 精确 的 近似 解 . 

W ep = r) — 2, 为 第 天 步 迭 代 解 的 误差 , 则 有 


Ek = Gep_1 = Grep_g = = Greo. 
BE”) 为 zz rO 的 一 个 线性 组 合 , 即 


glk) 一 aoz(0) 十 aya) 十 ener + apa”), (6.27) 
k 
其 中 a; 为 待定 系数 , 上 量 满 足 D oi = 1. 于 是 
i=0 
a) a, = Qoe0 + a1Geo +- 十 QkpG*eo = Pk(G)eo, (6.28) 


k 
HP p(t) = X ait H k KRAUS, HIE p, (1) = 1. 
i=0 
我 们 希望 通过 适当 选取 参数 oi, 使 得 一 xz, 尽 可 能 地 小 , BE O 收 敛 到 x; 速度 远 远 
RF ao) 收敛 到 zs。 速度 . 这 种 加 速 方法 就 称 为 多 项 式 加 速 或 半 迁 代 方 法 (semi-iterative method) . 
例 6.6 设 pn(t) 为 G 的 特征 多 项 式 , 则 pn(G) = 0, 所 以 选取 a; 为 mr 的 系数 , 则 e™ — a, = 0. 但 
这 种 选取 方法 不 实用 , 原因 是 : 
(1) pn(t) 的 系数 并 不 知道 ; 
(2) 我 们 通常 希望 收敛 所 需 的 迭代 步 数 K n. 
下 面 讨论 参数 a 的 较 实 用 的 选取 方法 . 由 (6.28) 可 知 


@ — zs = llpr(G)eollz < lpr(G) 2 : lleollz. 
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因此 我 们 需要 求解 下 面 的 极 小 化 问题 


extn, oC) (628) 


一 般 来 说 , 这 个 问题 是 非常 困难 的 . 但 在 一 些 特殊 情况 下 ,我 们 可 以 给 出 其 最 优 解 . 假设 迭代 矩阵 
G 的 特征 值 都 是 实 的 , 即 G 的 Schur 标准 型 为 


G=U(A+ R)U*, 


其 中 A ERAI, 且 对 角 线 元 素 都 是 实 的 , R 是 严格 上 三 角 和 矩阵 ,U 是 西 矩 阵 . 于 是 有 


min G)ll2 = =A A+R 
mo Mle a „lip Ile 
= nin bt 
= eee 
eae {|p|}; (6.30) 


pEP;,p(1)= LdELA A Ka 
其 中 Ar An 分 别 表示 G 的 最 大 和 最 小 特征 值 . 这 是 带 归 一 化 条 件 的 多 项 式 最 佳 一 臻 逼近 问题 (与 
零 的 偏差 最 小 ). 该 问题 的 解 与 著名 的 Chebyshev 多 项 式 有 关 . 
Chebyshev 多 项 式 


Chebyshev 多 项 式 是 一 类 很 重要 的 正 交 多 项 式 , ERZOGEN, 函数 插值 , 数值 积分 等 方面 都 有 
着 重要 的 应 用 . 


Chebyshev 多 项 式 T(t) 可 以 通过 下 面 的 递归 方式 来 定义 : 


To(t) r= 1, Tı (t) =t, 
oO (6.31) 


也 可 以 直接 由 下 面 的 式 子 定义 


T(t) = ; («+ 2 1) + (t+ 2 i)" 
=5 [+ Pi) +(t- #-1)'|, 
或 者 Se (en 由 < K 
dhore fa 
其 中 cosh 为 双 曲 余 弦 , 即 cosh(t) = ETE, 容易 验证 , Chebyshev 多 项 式 具有 下 面 的 带 权 正 交 性 
质 
nama, Ja STT 
age Ha kl>0; 


0, kAL. 
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事实 上 , 在 线性 空间 C[—1, 1) 上 定义 带 权 内 积 
1 
(ot Í w(x) (a) g(a) de, 
-1 


其 中 w(z) 是 [-1 1] 上 的 权 函 数 , 即 满足 : 
(1) w(x) > 0,V x € [-1, 1]; 


1 
(2) I a’ w(x) dz 存在 , 其 中 大 为 任意 非 负 整数 ; 
= 


1 
(3) 若 g(x)w(ax) dz = 0, W g(a) = 0, EP g(x) © [-1, 1] 上 的 任意 非 负 连 续 函 数 . 
—1 


| 号 以 上 关于 权 函 数 的 定义 可 以 推广 到 一 般 区 间 [a,b] E. | 


在 该 内 积 下 , 将 线性 无 关 函 数组 {1, x, 07,...,0",...} 正 交 化 后 得 到 的 正 交 多 项 式 就 是 Chebyshev 
多 项 式 . 


引 理 6.9 Chebyshev 多 项 式 具 有 下 面 的 性 质 : 
(1) 7,(1) = 1s 
(2) T(t) MARMARA 2"; 
(3) Ty(—t) = (—1)*Ty(t), BP Tort) 只 含 偶 次 项 , Torpi (t) 只 含 奇 次 项 ; 
(4) 3 lt] <1 |7,(0| <1 3 lt] > 1 |T.O|>1L 


2i—1 
i Lie 


(5) T(t) = 0 的 解 为 t; = cos ( ar 
(6) Te(t) An- MEA: ti = cos ,i 一 2 一 1 
1+ kV2e 

2 )》 


(7) Tkl +€) > Ve > 0. 


下 面 的 结论 表明 , 在 所 有 首 项 系数 为 1 的 次 多 项 式 中 , pel) = sep Tet) 在 (1,1) 上 与 零 的 人 
差 是 最 小 的 (在 无 穷 范 数 意义 下 ) 


定理 6.19 设 px(t) T(t), 则 


= 1 
~ 9k-—l 


t)| < V p(t) EP 
max, [pRO] < max IpO), V(t) € Pr, 


其 中 了 配 . 表示 所 有 首 项 系数 为 1 的 下 次 多 形式 组 成 的 集合 , 即 


[prt = min ||p(t)|loo. 
p(t)EPk 


REPARA || llo A C[-1, 1] 上 的 无 穷 范 数 , FF || flloo = ace |Œ) f(a) € C[-1, I. 


该 性 质 可 用 于 计算 首 项 系数 非 零 的 n 次 多 项 式 在 [-1, 1] EM n — 工 次 最 佳 一 致 通 近 多 项 式 . 利用 
这 个 性 质 , 我 们 可 以 采用 Chebyshev 多 项 式 的 零点 作为 节点 进行 多 项 式 插值 , 以 使 得 插值 的 总 体 
误差 达到 最 小 化 . 

Chebyshev 另外 一 个 重要 性 质 是 下 面 的 最 小 最 大 性 质 . 


定理 6.20 Hy CRA |n| > 1, 则 下 面 的 最 小 最 大 问题 


min max t 
p(t)ePx.,p(n)=1—1<t<1 Ip( | 


通过 简单 的 仿 射 变换 , 该 定理 的 结论 可 以 推广 到 一 般 区 间 . 
定理 6.21 Ka,8,neRMRa<BA|n| 4 [a,B]. 则 下 面 的 最 小 最 大 问题 


Ip(t)| 


min max 
p(t)ePx,p(n)=1 a<a<B 


T, (= ae 


Chebyshev 加 速算 法 
考虑 迭代 格式 (6.25), 我 们 假定 : 
(1) AREE G 的 特征 值 都 是 实数 ; 
(2) 迭代 和 矩阵 谱 半 径 p = p(G) < 1, Bt A(G) € [-p, p] C (—1, 1). 
于 是 最 小 最 大 问题 (6.30) 就 转化 为 
x {|p(A)|}- 


min ma 
pEPx,p(1)=1 AE[-p,p] 


HF 1# [一 p, p], 根据 定理 6.21, 上 述 问题 的 解 为 


下 面 考虑 & 的 计算 . 我 们 无 需 先 计算 出 zt0), zx,... ,x9, 然 后 再 通过 线性 组 合 (6.27) 来 计 
oa), 事实 上 , 我 们 可 以 通过 Chebyshev 多 项 式 的 三 项 递 推 公 式 (6.31), 由 ZED 和 52) 直接 
计算 出 2) 这 样 做 的 另 一 个 好 处 是 无 需 存储 所 有 的 zO. 下 面 给 出 具体 的 推导 公式 . 


A setoj 1 payee os 
PH = apy BP Te(L/p) = 7. HS SURES SK (6.31) 本 得 


所 以 


5 — a = pp(G) €o = px Te(G/p) eo 
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pa [== -T-a(G/o) - Th-alG/p)] eo 


2G 1 1 
= Hk £ - — pk- (G/p)£0 = n-alG/p)e0 
p -k-1 Hk—2 
1 
= uk 2 : + gy — z4) 一 ere a) , 
P Hk-l Hk—2 
整理 后 可 得 
gh) — 2 Ga) Bk glk) dy, 
Hk-1 P Hk—2 
其 中 
d 2uk G Hk 
k = Tx : £ * 
Hk-1 P Hk—2 


Hk—1 P Hk—2 


( 1 2 1 ) QuKg 
Hk  PHk-1 Hk-2 Hk—1P 


_ 2HKg 
Uk-1P 


FUL, FEN TAT LAGS BUTE RAG (6.25) 的 Chebyshev 加 速算 法 . 


算法 6.8 Chebyshev 加 速算 法 


1: 


Set uo = 1, pr = p = p(G), @ = 2, kb =1 


2: compute EY) = Gr +g 
3: while not converge do 
4: k=k+1 
(? 1 1 i: 
5: Hk = š 
P Hk-1 Hk—2 
6: glk) = 2u G g(k-1) _ Hk gk-2) 十 2Uk a 
Hk-1 P Hk—2 Hk—1P 
7: end while 


| = 


PAIS AYE AE EARE RA — OB Tit) ERE, 故 算法 每 个 迭代 步 的 整体 运算 量 与 原 迭 代 格 
式 的 每 个 迭代 步 的 运算 量 基 本 相当 . 


© HA(G) € [Qs8], 且 -1<a<8<14, 则 我 们 也 可 以 构造 出 相应 的 Chebyshev 加 速算 法 。 


例 6.7 针对 二 维 离散 Poisson 方程 , 比较 Jacobi, JOR 和 Chebyshev 加 速算 法 的 收敛 性 质 . (绘制 收 
Oth AX) 


To be continued ... 


SSOR 算法 的 Chebyshev 加 速 


SSOR 迭代 和 矩阵 为 


Gssor = (D — wU)7"|(1-—w)D + wL] (D — wL) H [(1 — w)D + oU]. 


当 4 对称 时 ,有 工 = UT, ie 


(D—wU)Gsson(D —wU)! 

= [(l-w)D+wL](D-wL)*[(l1-—w)D+wL"|(D—-wl") 

= [(2—w)D(D — wL) — T| [(2 - w)D(D — wl") — T] 

I- (2-w)D[(D — wL) + (D — wL") t] + (2 - w)? D(D - wL) D(I — wL). 


假定 D 的 对 角 线 元 素 全 是 正 的 , 则 


D~'(D — wU)Gssor(D — wU) 71D"? 
=I- (2— w)DT!P[(D - wL)! + (D — wL) D"? 
+ (2— wD Howl) D(I — wL?) De. 
这 是 一 个 对 称 和 矩阵 , 故 Gsson 具有 实 特征 值 . 所 以 我 们 可 以 对 其 实行 Chebyshev 加 速 . 但 我 们 需要 
估计 Gssoa 的 谱 半径 . 


ce 若 存 在 矩阵 W 使 得 WT AW 是 对 称 和 矩阵 , 则 称 4 是 可 对 称 化 的 , 即 4 相似 于 一 个 对 称 矩 
PF. 
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6.5 快速 Poisson 算法 
如 果 已 经 知道 矩阵 4 的 特征 值 分 解 4 = XAX-L 则 Ar = 5 的 解 可 表示 为 
r= Atb = XA XIb. 
WR A 是 正规 和 矩阵, 即 X 是 酉 矩阵 , 则 
z = A b= XA-1X*0. 
一 般 来 说 , 我 们 不 会 采用 这 种 特征 值 分 解 的 方法 来 解 线性 方程 组 , 因为 计算 特征 值 分 解 通常 比 解 
线性 方程 组 更 困难 . 但 在 某 些 特殊 情况 下 ,我 们 可 以 由 此 得 到 快速 算法 . 


考虑 二 维 离散 Poisson 方程 
Tu = h27, (6.32) 


其 中 
T=I®T,+T,®I, Th =tridiag(—1,2,—-1) € R”*”, 


由 定理 6.1 可 知 
T=(Z®Z)(I®A+AGIZ 8 Z), 


所 以 ,方程 (6.32) 的 解 为 
u=T hf =[((Z@®Z)\T@A+A@I)1(Z@Z)"| Rf. 


因此 , 主要 的 运算 是 ZO Z 与 向 量 的 乘积 ,以 及 (2Z @ Z)? 与 向 量 的 乘积 . 而 这 些 乘 积 可 以 通过 快 
速 Fourier 变换 (FET) 来 实现 . 
6.5.1 FFT 
FFT (快速 Fourier 变换 ) 用 来 计算 离散 Fourier 变换 (DET) 矩阵 与 向 量 乘 积 的 一 种 快速 算法 . 
设 z= [xo, 8i «anal? EC", 其 DFT 定 义 为 y= DFT(x) = [yo;4.…,yn_1] E€ C”, HP 


n-1 
Ye = 3 wh xj, k=0,1,...,n—-1 
j=0 
这 里 
人 cos(27/n) — isin(27/n) 


是 1 的 一 个 nn 次 本 原 根 (primitive n-th root of unity), i 是 虚 部 单位 . 


1S 这 里 说 wn 是 primitive n-th root of unity 248 w? = 1 H 


GAL B= le ney) ale 
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构造 矩阵 Fn = [fej] E C, 其 中 frj = ween = cos(2kj7/n) — isin(2kj7/n), BH 
1 1 1 1 
1 Wn w2 paar 
pail ww wi 0 
1 ani ua- | 
n 


则 有 
y = DFT(x) = Fx. 
我 们 称 和 矩阵 Fy, 为 DFT $M. 易 知 DET 矩阵 具有 以 下 性 质 : 
(1) Fy, 是 对 称 和 矩阵 (但 不 是 Hermite 对 称 ); 
(2) 所 ,=n 所 以 FoF, EPP. 
相应 的 离散 Fourier 反 变换 定义 为 z = IDFT(y), 其 中 


人 和 
-二 
j= — Dw! Yk, J =O0,1,...,n-1. 
k=0 


写成 矩阵 形式 为 í 
xr = —F*y. 
n 
DFT All IDET 满足 下 面 的 性 质 : 
IDFT(DFT(x)) = 2, 


DFT(IDFT(y)) = y. 


mS 在 MATLAB 中 , 计算 DFT 和 IDFT 的 函数 分 别 为 fft 和 if ft, H: y=fft(x), x=if ft (y). 
(测试 代码 见 FET_test.m) 


6.5.2 ”离散 Sine 变 

离散 Sine 变换 有 多 种 定义 ,我们 这 里 只 介绍 与 求解 Poission 方程 有 关 的 一 种 定义 , 其 它 定 义 
请 参考 [32]. 

Wax = [21,22,...,%n]7 € R”, E BË Sine $4% (DST) 定义 为 y = DST(z) = [yi, v2)...， 
Yn]? ER”, 其 中 


7 . kIT 
Ce hee 12s ncn the 
对 应 的 离散 Sine 反 变换 记 为 IDST, Bl « = IDST(y), 其 中 
2 SQ. f jkr 
一 一 一 = ,2 
wa Lomein (9) J 94) ‘sn 


DST 和 IDST 满足 下 面 的 性 质 : 


Tj = 


IDST(DST(z)) =a, 
DST(IDST(y)) = y. 
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1S Ý MATLAB 中 ,计算 DST 和 IDST 的 函数 分 别 为 dst 和 idst, 即 : y=dst(x), x=idst(y). 
(测试 代码 见 DST_test.m) 


6.5.3 ”Possion 方程 与 DST 
我 们 首先 考虑 矩阵 Z 与 一 个 任意 给 定向 量 5 的 乘积 . 设 y = Zb, W 


= [2 &, . /kjir D 


因此 , 乘积 y = 22 可 以 通过 DST 来 实现 . 类 似 地 ,乘积 y = ZTb = GT- 蕊 可 以 通过 离散 Sine 反 变 


换 IDST 实现 , 即 
rg 
Zb=Z7 1d — IDST(b). 
Y | n+ z) ( ) 


所 以 对 于 一 维 离散 Poisson 方程 , 其 解 为 


u = T7 (h? f) = (ZATIZT) (h? f) = ZA f = h? - DSTA IDST(B)). 


而 对 于 二 维 离散 Poisson 方程 , 我 们 需要 计算 (Z @ 2)b 和 (27 @ 27) 它们 对 应 的 是 二 维 离散 
Sine 变换 和 二 维 离散 Sine 反 变 换 . 

eb = [or of... 02/7 © R, JEP bp € R”, SB = [bi bz... bn] € R™™, 则 由 
Kronecker 乘积 的 性 质 可 知 


(Z ® Z)b = (Z & Z)vec(B) = vec(ZBZ") = vec ((Z(ZB)")*). 


因此 ,我 们 仍然 可 以 使 用 DST 来 计算 (Z @ 2)b. 类 似 地 , 我 们 可 以 使 用 IDST 来 计算 (ZT @ 27)b. 


计算 b= h?f 


1: 
2: B = reshape(b, n, n) 

3: Bı = (ZTB)! = (IDST(B))" 
4 By = (ZT Bı)? = (IDST(B,))* 
5: bı = (I Q A +A 8 TI) ivec(B,) 
6: B3 = reshape(b1, n,n) 
7: By = (ZB3)" = (DST(B3))” 
8: Bs = (ZB4)! = (DST(B4))T 
9: u = reshape( B5, n?, 1) 


MATLAB 程序 见 Poisson_DST.m 
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6.6 ”交替 方向 与 HSS 方法 
6.6.1 多 步 迭 代 法 
Ù A= My — Ny = Mo 一 和 No 是 和 的 两 个 矩阵 分 裂 ; 则 可 以 构造 迭代 格式 


b = Nya) +b, 


: k=0,1,2,.... (6.33) 
Maz +) = Nor +2) +b, 


这 就 是 两 步 迭代 算法 , 对 应 的 分 裂 称 为 二 重 分 裂 . 易 知 , 两 步 迭 代 格 式 (6.33) 的 迭代 和 矩阵 为 


G = Mz No M'N). 


因此 , 其 收敛 的 充 要 条 件 是 p(My Na M7'N) <1. 
类 似 地 , 我 们 可 以 推广 到 多 步 迭 代 算 法 . 设 1 是 一 个 正 整数 , 则 4 的 1 重 分 裂 为 


相应 的 多 步 迭 代 算 法 为 
Miz tt?) = Nyx) +b, 
Mox +7) = Nox E+?) +b, 


k=0,1,2,.... 
Mz +9) = Nic HT) F b, 


6.6.2 ”交替 方向 法 

交替 方向 法 (alternating direction implicit, ADI ) 是 由 Peaceman 和 Rachford [30] 于 1955 年 提 
E, 用 于 计算 偏 微分 方程 的 数值 解 , 因此 也 称 为 PR 算法. 其 本 质 上 也 可 以 看 成 是 一 个 二 重 迭 代 算 
法 . 

设 A= A; + Ag, 则 ADI 迭代 格式 为 


k=0,1,2,..., (6.34) 
(aI + Az)z +) = (al — Ay)x+2) +b, 


Oe eae te 
其 中 a c 及 是 迭代 参数 . DA ADI AIR REEN 
Gap = (al + A2) (al 一 41)(a7 + Ay) t (aI E Ag). 


它 相 似 于 
G2(oT- Aı)(aI + 41)! (aI — A)(al + A2)l. 


所 以 ADI 和 迭代 (6.35) 收敛 的 充 要 条 件 是 


p(G) <1. 


F 4 对 称 正定 , H Ay 和 Ap 中 有 一 个 是 对 称 正定 , 男 一 个 是 对 称 半 正定 , 则 有 下 面 的 收敛 定 
理 . 


定理 6.22 设 4 cR” 对 称 正定 , A= A 十 Ao, 其 中 A 和 Ap 中 有 一 个 是 对 称 正定 , 另 一 个 是 
MAREE, 则 对 任意 正 数 a > 0 A p(G) <1, BR ADI BRA (6.35) WA. 


WEAR. 不 妨 假设 Ai 对 称 正定 , Ao 对 称 半 正定 . 则 


一 信 
I — 41)(aoT + A1) "ll2 = 1 
Ker- A(T +A) = may |S) < 1 
一 信 
I — 42)(aoT + A2) ‘ll2 = <1. 
NeT- As)(at + As)" = mag [EÀ] < 


所 以 ， 
p(G) < |Glz < ||(@7 — A)lal+A1) 2 :l(al— A2)(al+ A2) "2 < 1. 


6.6.3 ”HSS 方法 


HSS 方法 全 称 为 Hermitian and Skew-Hermitian Splitting method, 是 由 Bai, Golub 和 Ng [4] 于 
2003 年 提出 . 
Ù A= H +S, HP AAS APR A 的 对 称 与 反对 称 (和 斜 对 称 , Skew-Hermitian) 部 分 , 即 


T _ AT 
podi g_ Anat 
2 2 


该 分 裂 就 称 为 HS 分 裂 , 即 HSS. 
1S 任何 一 个 矩阵 都 具有 HS 分 裂 . 如 果 A e Cn, USE SEE EE, 


类 似 于 ADI 方 法, 我们 可 得 下 面 的 HSS 方法 


[e )z (al — §)x k=0,1,2,.... (6.35) 


(al + S)z**) = (al — H)x(*+3) +b, 
易 知 , HSS TAREE A 
Guss = (aI + S) (al — H) (al + H)! (aI — S). 


同样 , 它 相 似 于 
Ğ 2 (aIl — H)(aI + H)! (aI — S)(al + S). 


我 们 首先 考察 矩阵 (aT — S\(al + St. 事实 上 , 它 是 一 个 本 矩阵 (见习 题 (5.5)). 因此 


I&I — S)(a + 8)“. = 1. 
AF H EIEE, 因此 


(aI — H)(aI + H) t = ma 


aeo (H) Q 十 入 


“= 
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定理 6.23 HACER” 正定 , 则 对 任意 正 数 w > 0, 有 p(G) < 1, BR HSS 迭代 算法 (22) eS. 


WEAR. 由 于 A 正定, 即 五 对 称 正定 , 故 


ai Q 一 入 
(al — H)(al + H) = m ajka 
所 以 ,结论 成 立 . 口 
参数 a 的 选取 
HSS 方法 的 推广 


PSS, NSS, AHSS, MHSS 等 
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6.7 ”多重 网 格 方法 
参见 李 大 明 [49]. 


To be continued ... 
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6.8 Krylov FEARR A 
子 空间 迭代 算法 的 基本 思想 是 在 一 个 维 数 较 低 的 子 空 间 中 寻找 解析 解 的 一 个 “最 佳 ” 逼近 . 

子 空间 迭代 算法 的 主要 过 程 可 以 分 为 下 面 三 步 : 

(1) 寻找 合适 的 子 空间 ; 

(2) 在 该 子 空间 中 求 “ 最 佳 ”近似 解 ; 

(3) 若 这 个 近似 解 不 满足 精度 要 求 , 则 重新 构造 一 个 新 的 子 空间 , 然后 返回 第 (1) 步 . 
其 中 第 (1) 步 的 第 (3) 步 是 关于 子 空间 的 选取 和 更 新 间 题 . 目前 成 功 的 解决 方案 就 是 使 用 Krylov 
子 空间 . 


6.8.1 ”Krylov 子 空间 
Ù A € R?””, r e R”, WH AM r ERI Krylov TZEN 
Km(A,r) = span{r, Ar, A?r,..., A®™ tr}, m<n. 
通常 简 记 为 Km. 


下 面 我 们 需要 在 Km 中 寻找 解析 解 的 “最 佳 ” 近似 值 r0. 假设 > Ar, A?r,..., AIr 线性 无 
KW) dim Km = m. Æ v1, V2,- ,vm 是 Km 的 一 组 基 , 则 Ki 中 的 任意 向 量 xz 均 可 表示 为 


T = Yivy + YW 二 二 Ymvm = Vmy, 


其 中 yy = [y1, yo,---,Yml? 为 线性 表 出 系数 , Vm = [v1, 02,.--; Um]. 于 是 ， ae ~ 近似 c) 就 
转化 为 寻找 一 组 合适 的 基 ,va,. Um M Poe yn 
Arnoldi 过 程 


首先 考虑 基 的 选取 . 由 于 7, Ar, A?r,..., AIr 线性 无 关 , 因此 它们 就 组 成 Km 的 一 组 基 . 但 
为 了 确保 算法 的 稳定 性 , 一 般 来 说 ， 我 们 通 常 硕 望 选取 一 组 标准 正 交 基 . 我 们 可 以 通过 对 向 量 组 
{r, Ar, A?r,..., AIr} 进行 Gram-Schmidt 正 交 化 过 程 得 到 一 组 标准 正 交 基 , 这 个 过 程 就 称 为 
Arnoldi 过 程 ， 


算法 6.10 Arnoldi 过 程 (MGS) 


1: Vy =r/|r|l2 
2: for j = 1 to m do 


3: z = Ad; 

4 for i = 1 to j do 

5 hij = (viz) % 内 积 
6: z = z — hi jvi 

7 end for 

8  hjyij = lzll2 

9 if hj+1,; = 0 then 

10: break 

11: end if 


12: Vj+1 = Z/hit1, 
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13: end for 
id V, = [v1, v2, Stade „Uml 
hia hi2 hig him 
h21 h22 h23 hom 
h h hsm 
ae, Hm | e potem, 
hm,m—1 hm,m 
hm+1,m 
则 由 Arnoldi 过 程 可 知 
hj+1,jUj+1 — Avj = hı jv = h2 jv2 m hj jvj, 
即 
hij | 
j+1 i 
Avj = > hy jvi = Vm+1 | a x | = View Bim (7) 
i=1 
所 以 有 
AVm = m+1Hm+ijm = VmHm + hmiimimireh (6.36) 


其 中 Hm = Hmtim(1:m,1:m),em = (0,...,0,1]7 € R”. BF Vin EIEEE, 上 式 两 边 同 
FR VI 可 得 
Vi AVm = Hm. (6.37) 


等 式 (6.36) 和 (6.37) 是 Arnoldi 过 程 的 两 个 重要 性 质 . 
由 于 Aim+ijm 是 上 Hessenberg 矩阵 ,因此 Arnoldi 过 程 也 称 为 部 分 上 Hessenberg 化 过 程 . 


Lanczos 过 程 
如 果 A 是 对 称 和 矩阵 , 则 Hm 为 对 称 三 对 角 和 矩阵 , 此 时 将 其 记 为 Tm, Bll 


s bı | 
tale = a . (6.38) 
ss ia Bm-1 
Bm-1 Am 
与 Arnoldi 过 程 类 似 , 我 们 有 下 面 的 性 质 


AVm = VmTm + BmUm41€4, (6.39) 
Vi AVm = Tm. (6.40) 
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考察 关系 式 (6.39) 两 边 的 第 j 列 可 知 
BjVj44 = Av; 一 Q7U71 一 Bp ADV 了 = 1, 2, ee 


这 里 我 们 令 vo = 0 和 Bo = 0. 根据 这 个 三 项 递 推 公式 , Arnoldi 过 程 可 简化 为 下 面 的 Lanczos 过 


程 . 


算法 6.11 Lanczos 过 程 
1: Set vo = 0 and bo = 0 
2: =r/Irll2 
3: for j = 1 to m do 


4: z= Avj 

5 oj = (vj, z) 

6 z = z — A505 — Pi1vj1 
7 6;= lzll 

8 if 8; = 0 then 

9 break 

10: end if 

1: vj41 = 2/8; 

12: end for 


6.8.2”Krylov 子 空间 和 迭代 算法 一 般 格 式 


Krylov 子 空间 迭代 算法 的 一 般 过 程 为 : 
(1) 令 m=1 
(2) 定义 Krylov 子 空间 Km; 
(3) 在 该 子 空间 中 求 出 “最 佳 ” 近似 解 ; (事实 上 , 是 在 仿 射 空间 z(0) + Km 中 寻找 “最 佳 ” 近 似 解 ) 
(4) 如 果 这 个 近似 解 满足 精度 要 求 , 则 迭代 结束 ; 否则 令 m e m 十 1, 即将 Krylov 子 空间 的 维 数 
增加 一 维 , 并 返回 到 第 (3) 步 . 


算法 6.12 Krylov 子 空间 和 迭代 算法 


1: Choose an initial guess z(0) 


2: computet ro = b — Ax and vı = r9/|lroll2 

3: find the “best” approximate solution 2) € 2 + Ky, = z) + span{v1} 

4: if c is ok then quit 

: form = 2 to n do 

compute vm with Arnoldi or Lanczos process 

find the “best” approximate solution x™ € «© + Km = 2 + span{v1,...,Um} 
if £2(" is ok then quit 


SO) P N “Oy 


: end for 


子 空 间 题 可 以 通过 es 子 空间 来 解决 . De ee ace 
仿 射 空间 © + Km 中 的 “最 佳 ”近似 解 zw. 首先, 我 们 必须 给 出 “最 佳 ” 的 定义 , 即 aH LA 
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么 条 件 时 才 是 “最 佳 ” 的 , 不 同 的 定义 会 导致 不 同 的 算法 . 
E a 与 真 解 之 间 的 距离 来 衡量 "最 佳 ” 即使 得 oc 一 zx 在 某 种 意义 
下 最 小 , 如 ze — zz 达到 最 小 . 但 是 由 于 x 不 知道 , 因此 这 种 方式 往往 是 不 实用 . 
实用 的 “最 佳 " 方式 有 : 
(1) WE |lrmllo = |b — Ar™ Io 最 小 , 即 极 小 化 残 量 rm = b — Ar). 这 种 方式 是 可 行 的 , 当 A 
对 称 时 , 相应 的 算法 即 为 MINRES 算法 , 当 4 不 对 称 时 , 相应 的 算法 即 为 GMRES 算法 ; 
(2) 要 求 残 量 与 Km EZX, 即 rm 上 Km. 这 个 正 交 性 条 件 称 为 Galerkin 条 件 . 当 A 对 称 时 , 相应 
的 算法 即 为 SYMMLQ 算法 , 当 4 对 称 正定 时 , 相应 的 算法 即 为 CG Bik, 当 4 不 对 称 时 , 相 
应 的 算法 即 为 FOM 算法 ; 
(3) A 4 对 称 正定 , 我 们 也 可 以 极 小 化 残 量 的 能 量 范 数 rma4-1, 其 中 


1 i 
Imla Ê (PRAT)? = (= An)? AM — As)? 


I 
SN ON TN 
— 
D 
p 
o> 
| 
a. 
= 
a 
D 
— 
> 
e 
o> 
| 
a 
=, 
X 


下 面 的 结论 表明 , 当 A 对 称 正定 时 , “最 佳 ” 方 式 (2) 和 (3) 是 等 价 的 , 因此 条 件 (3) 对 应 的 算法 
是 CG 算法 . 


定理 6.24 设 4 对 称 正定 , 则 


a™ =arg min |z- ela 


ZEZ(0) +Km 


cMeqeq@%O4K,, E b- AL™ 1 Km. 


WEAR. 首先 证 明 充 分 性 . 设 oc) 满足 (6.42). de = zoom — r, Wee Km A 
70 一 AZ ale 人 


由 正 交 投影 的 性 质 (1.17) 可 知 ,和 闷 是 最 佳 逼近 问题 


cS 
的 解 , BH 
# = arg min |e — A-1rOa 
= arg min ||z — A '(b— Ax®)||4 
= arg min ||(c +2) — alla. 
所 以 , zem) = rO + z FER EI 


min |z 一 zx|4 
ZEZ(0) 十 Km 
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的 解 , 即 结论 (6.41) 成 立 . 
必要 性 只 需 利 用 正 交 投影 的 性 质 (1.17) 即 可 , 见 作业 6.13. 口 


6.8.3 GMRES 和 迭代 算法 


GMRES 算法 是 目前 求解 非 对 称 线性 方程 组 的 最 常用 算法 之 一 . 在 该 算法 中 , “最 佳 " 近似 
解 的 判别 方法 为 “使 得 rm = b- Az | 最 小 ”此 时 , “最 佳 ” 近似 解 zem) 满足 下 面 的 性 
质 . 


定理 6.25 设 Ac R™”, 则 


a™ =arg min |b- Arli 
Ez(0O) 十 Km 


当 且 仅 当 


eee 4K, E ba Ar™ L AKm, 


其 中 AKm = span{ Ar, A?r,..., A™r}. 


WEA. re zt0 十, 则 Zz 可 写 为 z= O H w, EP w eE Km. 所 以 问题 (6.43) 可 改写 为 


min ||b— A(z +w)|l2 = min llro — Aw|l2 (6.45) 
weKm weKm 

= i 一 6.46 

min |lro z\l2 (6.46) 


由 正 交 投影 的 性 质 (1.17) PY A, Z 是 (6.45) 的 解 当 且 仪 当 
ro —% L AKm. 
充分 性 . 设 r 满足 (6.44), S w™ = o™ — ©, M rg — Aw™ = b 4zom ,所 以 
ro — Aw") L AKm, 


Bl 2 = Aw”) 是 问题 (6.46) 的 解 ,也 即 wo) 是 问题 (6.45) 的 解 . 因此 , c0 是 问题 (6.43) 的 解 . 
要 性 . 设 x(" 是 问题 (6.43) 的 解 . S wl) = r™) — 7, Wz = Aw 是 问题 (6.46) 的 解 . 
a. ro — Aw L AKm. X ro — Aw™ = b— Ar™, EDI 


b— Ar™ | 4KC 


下 面 我 们 根据 最 优 性 条 件 (6.43) 导出 GMRES 算法 . 
设 和 迭代 初始 向 量 为 zt0), 则 对 任意 向 量 z e rO + Km 可 设 z = rO + Vmy, Hy E€ R”. 于 
是 有 
r=b—Az 
= b— A(x — Vny) 
= ro — AViny 
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= fv 一 Vm+1Hm+1,mY 
= Vm+1 (Ber = Heigl) ) 


这 里 8 = |rollz. 由 于 Ving 列 正 交 , 所 以 
IIrll2 = ||Vm+1(8e1 — Hm+imy)|l2 = lBer — Hm+imylle- 
于 是 最 优 性 条 件 (6.43) 就 转化 为 


y™ = arg min ||Ge, 一 Am+imyll2- (6.47) 
yeR™ 


这 是 一 个 最 小 二 乘 问题 . 由 于 Hmm 是 一 个 上 Hessenberg #21, 且 通 常 m 不 是 很 大 , 所 以 我 们 
可 以 用 基于 Givens 变换 的 QR 分 解 来 求解 . 下 面 就 是 GMRES 算法 的 一 个 基本 框架 . 


算法 6.13 GMRES 和 迭代 算法 基本 框架 
1: 给 定 初 值 ©, 停机 标准 © > 0, 以 及 最 大 迭代 步 数 IterMax 
2: ro = b — Ax, B= llrolle 
3: V1 = 70/8 
4: for 7 = 1 to IterMax do 


5 w = Av; 
6 fori = 1tojdo % Arnoldi 过 程 
7: hij = (vi, w) 
8 w = w — hi jui 
9 end for 
10: hj+ij = |lwlle 
11: if hj+1,; = 0 then 
12: m = j, break 
13: end if 
14: Ugg = w/hy413 
15: relres = ||r;||2/8 ”% 相对 残 量 
16: if relres< £ then 
17: m = j, break 
18: end if 
19: end for 


20: 解 最 小 二 乘 问题 (6.47), 得 到 y 
21: L) = 2 十 Vary 


具体 实施 细节 
需要 解决 的 问题 有 : 


(1) 如 何 计算 残 量 rm 人 Sb 一 Ar 的 范 数 ? 
(2) 如 何 求解 最 小 二 乘 问题 (6.47)? 
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这 两 个 问题 可 以 同时 处 理 . 由 于 m 通常 比较 小 , 因此 我 们 采用 QR 分 解 来 求解 最 小 二 乘 问题 . 设 
Hm+i,m 的 QR 分 解 为 


Hm+1,m = Oe sa ees 
其 中 Qmp E Rw+DX(m+D) 是 正 交 矩阵 , Rim E RMDM 是 上 三 角 和 矩阵 . 则 


R 
Pai = | | Yy 
0 2 
其 中 Rm E R™*™ 是非 奇异 上 三 角 和 矩阵 (这 里 假定 Hmm 不 可 约 ). 所 以 问题 (6.47) 的 解 为 


y™ = BR, (lim), 


[Ber — Bsa mylla = ||8Qm+161 — Rm+1,myll2 = 


且 
lrmll = 此 一 4z6n)l = ||8e1 — Hmtimy™ |l2 = B+ |a (m + 1)), 
其 中 qi(m +1) 表示 qi 的 第 m 十 1 个 分 量 . 
由 于 Hm+i,m 是 上 Hessenberg 矩阵 , 因此 我 们 采用 Givens 变换 . 


(1) 当 m = 1 时 , Aa = bi , 构造 Givens 变换 G1 使 得 


21 


x 
G1H21 = f = Ra, B Ha = GT Ra. 


(2) 假定 存在 Gi, Go, tee , Gm-1> 使 得 
(Gm-1 ee G2G1)Hmm-1 = Rmjm-1; 


即 
Hmm-1 = (Gm-1 “oe GoGi)* Rm_1 全 OF Raed, 


| 号 为 了 书写 方便 ,这 里 假定 Gi 的 维 数 自动 扩张 , 以 满足 矩阵 乘积 的 需要 . | 


Hm m— hm 
Hm+i,m = i j ) 其 中 hm = [him ham, sey lial 
0 hm+1,m 
所 以 有 i 
Q 0 R Q h Rm-1 hm_1 
m Hyim — m,m—1 mim | 一 0 hmm 
0 1 0 cig 


0 hm+1,m 


其 中 hm_1 是 Qmhm 的 前 mC— 1 个 元 素 组 成 的 向 量 ， hm 是 Qmhm 的 最 后 一 个 元 素 . 构造 
Givens 变换 Gm: 


CE Rimt+)~x (m+1) , 
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ey 中 i 

h h x 

Cm = om, Sm = =, hm,m Vim 二 hm+1 m 

hm,m hm,m 

令 
Qm 0 
Qm+1 = Gm - 1 ) 
则 
Rm-1 hm_1 Rm-1 hm_1 
Qm+1Hm+i,m = Gm 0 hjj = 0 hjj 全 Rm4: 
0 hm+1,m 0 0 


所 以 可 得 wpm 的 QR 分 解 Hmpim = QF, p1 Rmtim- 


Ia 由 Am m-1 的 QR 分 解 到 Hm+1,m 的 QR 分 解 ， 我 们 需要 
元 素 上 , 所 以 我 们 需要 保留 所 有 的 Givens 变换 ; 
(2) 残 量 计算 : ||[rmll2 = |Ga(m+1)| = |BQm+(m+1,1)|, BY G@mGm-1-- -G2G1 (Ber) BY 
最 后 一 个 分 量 的 绝对 值 . 由 于 在 计算 rm- 时 就 已 经 计算 Gm1 GoGi (Ber), 因此 
这 里 只 需 一 次 Givens 变换 即 可 ; 
(3) yO 的 计算 : 当 相 对 残 量 满足 精度 要 求 时 , 需要 计算 y(™ = Ro 1q1(1: m), m qi 即 为 
GmGm-_1:.:G2G1(bel). 


算法 6.14 实用 GMRES 算法 
1: 给 定 初 值 (0, 停机 标准 。 > 0, 以 及 最 大 迭代 步 数 IterMax 
2: ro =b- Ax, B = roll2 
3: if < e then 
4 停止 计算 ,输出 近似 解 z(0) 


5: end if 

6: Uy = ro/B 

7 E= ße AWR 

8: for j = 1 to IterMax do 

9 w = Av; 

10: fori = 1tojdo  %Arnoldi 过 程 


11: hij = (vi, w) 

12: w=w— hi jui 

13: end for 

14: Agta = |wll2 

15: if hj+1,j = 0 then % 迭代 中 断 
16: m = j, break 

17: end if 

18: Uj+1 = w/hj4sj 


19: fori=1ltoj—ldo % 计 算 G;_1…G2G1Hj;41;(1:j,7) 
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OEE 
hits =si Ci} [rity 

21: end for 

22: if |hj;| > |hj41,;| then  % 构 造 Givens 变换 G; 

23: T = hjpig/hgp cj = 1/V1 +7?, sj = CT 

24: else 

25: T = hjj/hi+ijs sj = 1/V1 +7, cj = 857 

26: end if 

27 hjj = cjhjj + sjhjtij hjj =0 % WH GjHjt C: j, j) 

28: | u| |a Si) | Si % 计算 Gj(BGj_-1--- GoGie1) 

Ej+1 一 5j ej) [E+ 

29: relres = |[Ej4i|2/8  % 相对 残 量 

30: if relres< £ then 

31: m = j, break 

32: end if 

33: end for 

34 m= j 


35: y™ = H(1:m,1:m)\E(1:m) % 求 最 小 二 乘 问题 的 解 , 回 代 求解 
36: Lm) = 7 + Vpy™ 
37: if relres< £ then 


38: 输出 近似 解 z 及 相关 信息 


39: else 

40: ”输出 算法 失败 信息 
41: end if 

GMRES 算法 的 中 断 


在 上 面 的 GMRES 算法 中 , 当 执行 到 某 一 步 时 有 hj+1,; = 0, 则 算法 会 中 断 (breakdown). WFR 
出 现 这 种 中 断 , 则 我 们 就 可 以 找到 精确 解 . 


定理 6.26 HACER” AHH ro £0. F hitii ZO i= 1,2,...,k— 1, N hpi, =0 SAR 


4 rE) 是 方程 的 精确 解 . (不 考虑 舍 入 误差 ) 


WEAR. 必要 性 . 设 heti, = 0, WA 
AVe = ViHe, y = Hy (Ber). 
所 以 
lIrell2 = llb — Ax l2 = 1 — Ae 二 人防 g 的 )a = ro — VeHry l2 = || Gur — Ve(Ber)|l2 = 0. 
充分 性 . 设 oc) 是 精确 解 , 则 


0=—b— Ar) = To 一 Vert Aes py ® = Veii(Be1 一 Hpi ky). 


反 证 法 , 假设 heti, Æ 0, W uppi Æ 0. EE Veyi 单位 列 正 交 , 故 列 满 秩 ,所 以 由 上 式 可 知 


Ber — Hpi py = 0. 


由 于 Hepie 是 上 Hessenberg 矩阵 , A hiyi: 40,7 = 1,2,...,k. 通过 向 后 回 代 求解 可 得 y%) = 0, 
FÆ p = 0. X5 ro #0 AIA. 所 以 ji 一 0 口 


带 重启 的 GMRES 算法 


由 于 随 着 迭代 步 数 的 增加 , GMRES 算法 的 每 一 步 所 需 的 运算 量 和 存储 空间 会 越 来 越 大 , 因 
此 当选 代 步 数 很 大 时 , GMRES 算法 就 不 太 实 用 . 通常 的 解决 方法 就 是 重启 , 即 事先 设 定 一 个 重启 
PEACE k, UU k = 20 或 50 等 等 , 当 GMRES 达到 这 个 迭代 步 数 时 仍 不 收敛 , 则 计算 出 方程 组 在 
2) 4 Ky 中 的 最 佳 近似 解 c0, 然后 令 © = z(, 并 重新 开始 新 的 GMRES 迭代 . 不 断 重 复 该 过 
程 , 直到 收敛 为 目 . 


算法 6.15 重启 GMRES 算法 (GMRES(k)) 
1: 设 定 重启 步 数 上 (和 n) 
2: 给 定 初 值 cO, 停机 标准 £ > 0, 以 及 最 大 迭代 步 数 IterMax 
3: ro =b — Ax, B = llroll2 
4: if 8 < «then 
停止 计算 ,输出 近似 解 x = a) 
: end if 


5 
6 
7: V1 = ro/B 
8 
9 


: E = Bey 
: for iter=1 to ceil(IterMax/k) do % 外 循环 
10: for j = 1 to k do 


11: 调用 GMRES 循环 
12: end for 
13: m= 7 


14: y™ = H(1:m,1:m)\é(1:m) 
15: a™ = 7O + Vpy™ 


16: if relres< £ then 
17: break 
18: end if 


19: x(0) 二 xtm) % 重启 GMRES 
20: 70 一 0 一 Ac, p= | rolla 


21: v 一 ro/B 
22: € = Be, 
23: end for 


24: if relres< £ then 
25; ”输出 近似 解 zw") 及 相关 信息 
26: else 


27: ”输出 算法 失败 信息 
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28: end 让 


带 重 启 的 GMRES 算法 需要 注意 的 问题 
(1) 如 何 选 取 合 适 的 重启 步 数 k? 一 般 只 能 依靠 经 验 来 选取 ; 
(2) 不 带 重启 的 GMRES 算法 能 保证 算法 的 收敛 性 ,但 带 重启 的 GMRES 算法 却 无 法 保证 , 有 时 
可 能 出 现 停滞 现象 (stagnation). 


6.8.4 H4 EIR (CG) 
当 4 对 称 正 定时 , Arnoldi 过 程 就 转化 为 Lanczos 过 程 , H. 


AVin = m+1im+im =VinTm + Bnvmried,, 
VI AVm = Tm, 


HP Tm = tridiag(8 ai Bi41), JL (6.38). 由 定理 6.24 可知, 此 时 我 们 需要 在 rO + Km 寻找 最 
优 解 c0, 满足 
b— Ax™ | Km. (6.48) 


设 4 对 称 正定 ,下面 就 根据 这 个 性 质 推导 CG 算法 的 迭代 公式 . 
首先 , BH r = rO 4 Vpn, 其 中 2") e R”. H (6.48) 可 知 


0 = VZ (b — Ar) = VE (ro — AVmz™) = VE (B01) — VI AVmn2z™ = Ber — Tmz™, 


因此 ， 
z(™ = T7 (Be1). 


由 于 Tin 对 称 正定 , 所 以 Tm 存在 分 解 Tm = Lim Dim Li. 于 是 可 得 
s 一 TO FV 一 2 二 TITTL8el = 2 + (VL (BD Lie). 
如 果 ze 满足 精度 要 求 , 则 计算 结束 . 否则 我 们 需要 计算 
人 
下 面 就 考虑 如 何 利用 递 推 方式 来 计算 o™, m = 1 2,.…. 记 


>= = ROAR, 


Pry = VoL == [D1, P2, … , Dm] 
Ym = BD! Llei = fives 4 dial e R”. 


我 们 首先 证 明 下 面 的 结论 . 
引 理 6.10 下 面 的 递 推 公式 成 立 


ca Aa = ~ = 
Pm+1 = MEW fait = [Pas Pri | 


T T 
Ym+1 = BD ak myel = [Ym m+] : 


“6-53 - 


UERR. 设 Tm 的 Cholesky 分 解 为 
Tr = ly Dili = ee 
leat. 1 
有 待定 系数 法 可 知 dy = ar, 


li = Bi/di, di41 = Qi+1 — libi, 4=1,2,...,m—1. 


记 = (0,.-.,0, Bm]? € R” W 


Tm m 
Im+i=| p a = Lm41 Davila 
Ym Om+1 
T 
| ||" 由 | 
L 1 | d2 L 1 | 
Im—1 1 dm lm—1 1 
lm 1 dm+1 lm 1 


E Im = Bm/dm dmv = Oma — lmBm W 7 = [0,...,0, ln]? € R™, 则 
Lm 0 —1 Lz! 0 
所 以 有 


De J 


i 7 = (Valo ,—VnLr 5+ Vm]: 


Pil = Vmi Lra = [Vin, vm+1] | 


K Vala Tl = De [nada 


Pm+1 = —lmPm + Um41- (6.49) 
另外 ， 
ee R JE 
m+1]m+1 0 ae 57 L-1 1| lo 
E | Poa ey, | 
-pL et /dm+1 


即 结论 成 立 . 口 
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有 了 上 面 的 性 质 , 我 们 就 可 以 得 到 从 s 到 ol) 的 递 推 公式 


2 = Y 7 
mm 十 1 = Pm+1Ym+1 = [Pn, Pm+1] | Ee | = gl) + 71m 十 1Dm 十 1， (6.50) 
Tm+1 


为 了 判断 近似 解 是 否 满足 要 求 ,我们 需要 计算 残 量 rw = b 一 Aa’), 易 知 , 残 量 满足 下 面 的 递 推 公 
式 : 


Pmt = b — Ag) = p — A™ + miibntl) = Tm — Nm414Pm41.: (6.51) 


另 一 方面 ,我 们 有 


tm = b — Ag™ = b — A(x + Vyz'™) 
TU 一 AV zkm) 
= Bu, 一 Vp Tpz ™ 一 Bnvmiied zt™) 


= —Bmn(eh,z(™ omer, 
即 Tm 与 Um-+1 > JE 
Tmn =TmUm+1, m=0,1,2,..., 
其 中 
To = b = tl: Tm =—bmlenz"™), m=1,2,.... 


记 


Pm = Tm—1Pm, 


于 是 我 们 就 得 到 下 面 的 递 推 公式 


Tm+1 = Tm 一 Nm+1APm+1 =m 一 Em+1 APm-4 11 (6.52) 
(mth) — plm) 


+ m+ Pm+1 = am ee Em41Pm41; (6.53) 


其 中 Em+1 = dae = 0, L 2, a 以 及 
Tm 
Pm+1 = TmPm+1 = Tm (Um+1 = lmPm) = Tm 十 HmPm, (6.54) 


l 
HP um = 一 人 


Tm—1 
下 面 需 要 考虑 系数 Em 和 um 的 计算 方法 . 首先 给 出 下 面 的 性 质 
引 理 6.11 下 面 的 结论 成 立 : 
(1) 71,72,...,Tm 相互 正 交 ; 


(2) pi,p2,---;Pm 相互 A- 共 罗 (或 4- 正 交 ) B% i 天 了 时 有 7P74pj =0. 


WEAR. (1) AF rg 与 w+1 平 行 ,所 以 结论 成 立 . 
(2) 只 需 证 明 PT7AP 是 对 角 和 矩阵 即 可 , BINE PL 4 已 , 是 对 角 和 矩阵 . 通过 直接 计算 可 得 


PIAPn = (Vm Lpo ) AVm Le 


三 了 人 


=f (LmDm L} Lze 


m 


下 面 给 出 Em 和 pm 的 递 推 公式 . 在 等 式 (6.54) 两 边 同时 左 乘 p14 可 得 
PhiApm+1 = Papi Arm + pmphriApm = TmADm+1- 
再 用 以 左 乘 方程 (6.52) 可 得 


T FẸ T 
0= TmTmtl = m'm 一 Em+1mAPm+1s 


故 


F T 
Pmlm TmTm 


rh APm+1 D PL 1 4Pm+1 l 


Em41 = 


等 式 (6.54) 两 边 同时 左 乘 pt A 可 得 
0 = ph Apm+1 = pi Arm + Hmph Apm, 
故 
phArm 7hApm 
phApm phApm 
为 了 进一步 减少 运算 量 , 我 们 将 上 式 进行 改写 . 用 rl p1 左 乘 方程 (6.52) 可 得 


Hm = 


T T 
Tm+ilmtl = lmtitm — EmtitmiApma = —Em+1?m41 APm41; 
T 
a Tm+1T m+1 
m41 二 一 一 一 一 . 
rm+1Apm+1 


a 
所 以 Em = aes , BI rZ Apm = -r2 rům/Em 代入 (6.56) 可 得 


ie rI Apm Cote 1 tile phApm rhrm 
本 二 = . . _ | 
phApm phApm ém phApm rl rm Th_irml 


a 


pı = TP = bul = ro, 


综合 公式 (6.52), (6.53), (6.54) 和 (6.55), (6.57) 即 可 得 CG 算法 : 


算法 6.16 共 斩 梯度 法 (CG) 


“6-55 - 


(6.55) 


(6.56) 


(6.57) 


1: 给 定 初 值 zo = 0, 停机 准则 © > 0, 以 及 最 大 迭代 步 数 IterMax 
2: 70 = b— Axo 
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3: B = |lroll2 

4: if 8 < e then 

5 停止 迭代 , 输出 近似 解 wO 
6: end if 

7: pı = Tro 

8: for m = 1 to IterMax do 

9: Em = (rh, Tm—-1"m-— 1)/ (ph APm) 
10: £) = gD) 4 EmpPm 

11: Tm =Tm—1 — Êm Apm 

12: relres = ||rm|lo/C 

13: if relres< £ then 

14: break 

15: end if 

lé: /arm 
17: Pm+1 = Tm + bmPm 

18: end for 


19: if relres< £ then 


20: ”输出 近似 解 c) 及 相关 信息 


21: else 
22: ”输出 算法 失败 信息 
23: end if 


IS CG 算法 的 每 个 迭代 步 的 主要 运算 为 一 个 矩阵 向 量 乘积 和 两 个 内 积 ; 


6.8.5 CG 算法 的 收敛 性 分 析 
设 zx; 是 解析 解 , zt") € zt0 + Kin 是 CG 算法 在 zx) + Km 中 找到 的 近似 解 , 即 


r™ =arg min lz— zla. 
ZEZ(0O) 十 Km 


记 Py 为 所 有 次 数 不 超 过 大 的 多 项 式 的 集合 . 对 任意 x € r 十 Km, 存在 p(t) € Pj_1, 使 得 
a = 2) + p(A)ro 
于 是 有 
£ — ty = €9 + p(A)(b— Ax) = co + p(A) (Az, — Ax) = (I — Ap(A))eo £ q(A)eo, 


其 中 so = 2 一 zx, 多项式 q(t) = 1 一 tp(t) € Pm H. q(0) = 1. MV 


læ — 4 =F g( A)? Ag(A)eo 


i A = QAQ? 是 4 的 特征 值 分 解 , 其 中 @ 是 正 交 和 矩阵 , A = diag(A1, A2,...,An) 是 对 角 阵 , H. 
Ai > 0. y = [yy yn] QT eo, W 


le — axl = min lla — za 
cexO4+Km 
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= min eq(A)’Agq(A)eo 
qEPm, q(0)=1 


= min A 
qEPm, q(0)=1 


: T T 
— min AY Aqg(A 
ee qa(A) Ag(A)y 


= min Di y; \iq(A 


qEPm, q(0)=1 


< min max {q(\;)?} Du y; 


qEPm, 9(0)=1 1<i<n 


T 
= A 
= ae {Is i)? } y" Ay 


= min max el Ae 
mi max (q(s)?) ef Act 


= „min ax {q(i)"} lleoll, 


qEPm, q(0)= Lick oh 


即 


(k) g2 
T 化 
ee min max {q(Ai)”}. 
|e — ay ||4 ~ gePm, q(0)=1 1Si<n 


因此 , 我 们 有 下 面 的 结论 . 
引 理 6.12 设 A e 了 "xm 对 称 正定 , r) 是 CG 算法 迭代 mm 步 后 得 到 的 近似 解 . 则 


m) _ 
le Qa. 


n max 
|x — zall A ~ qEPm, q(0)=1 eee 


由 于 A 的 特征 值 通 常 是 不 知道 的 , 因此 不 等 式 (6.58) 右 端 通常 难以 计算 . 但 在 许多 情况 下 ,我们 可 
以 通过 一 些 近似 方法 估计 出 4 的 最 大 特征 值 Xi 和 最 小 特征 值 An. 假设 Ad 和 An 已 知 , 则 不 等 式 
(6.58) 右 端 可 以 放 缩 为 


min max |q(A)|. (6.59) 
qEPm, q(0)=1 An SASÀ 


由 Chebyshev 多 项 式 的 最 佳 通 近 性 质 (定理 6.21) 可 知 , 最 小 最 大 问题 (6.59) 的 解 为 
Trn zion NTH An) 
q(t) = ( ; 


入 1 十 入 mm 
Tm ( 入 1 一 入 m 


FLA Tm Ay m WR Chebyshev EM. H F Tm(t) = (-1)"Tm(t), BS |t| < 1A |Tin(t)| < 1 所 以 


MS [> Ly 


- 6-58 - 


所 以 


K(A) —1 


(vas 


其 中 r(A) = à 为 4 的 条 件数 . 因此 我 们 可 以 得 到 下 面 的 收敛 性 定理 . 


定理 6.27 设 A cR?” 对 称 正 定 , ztm) 是 CG 算法 迭代 mm 步 后 得 到 的 近似 解 . 则 
(m) _ =1\" 
lz ala <a/ RA) z) 


lzt0 一 za ~ 


VK(A) +1 


CG 算法 的 超收 敛 性 
如 果 我 们 能 够 获得 4 的 更 多 的 特征 值 信息 , 则 能 得 到 更 好 的 误差 限 [2]. 
定理 6.28 设 4 对 称 正定 , 特征 值 为 


0 < Ay SoS pti < bi S Ani NH A eee Ss A 


M4m>i+ 7 tA 
Ix) — axel) a (! o a 
[2 — zla ~T \O+1 efor ba] 


其 中 


II ( z>) ii (= >) | ， (6.61) 


k=n+1-i 


由 此 可 知 , 4 by 与 bo 非常 接近 时 , FER i + j AIR, CG 算法 收敛 会 非常 快 . 
推论 6.29 设 4 对 称 正 定 , 特征 值 为 


<0 = Age S Aggie Sle Anai eS A SLEA A 


W3m>i+j HA 


jo — zl a 


|x 一 za ~ 


68.6 其它 Krylov 子 空间 迭代 算法 


Krylov 子 空 间 算法 一 览 表 : 


CG (1952) 对 称 正 定 , 正 交 投影 法 (Galerkin) 
对 称 MINRES (1975) | 对 称 不 定 , 斜 投影 法 (Petrov-Galerkin) 
SYMMLQ (1975) | 对 称 不 定 
SQMR (1994) 对 称 不 定 
FOM (1981) 正 交 投 影 法 , Arnoldi 
GMRES (1984) 斜 投影 法 (Petrov-Galerkin), Arnoldi 
BiCG (1976) 双 正 交 (biorthogonalization) 
非 对 称 QMR (1991) 双 正 交 (biorthogonalization) 
CGS (1989) Transpose free 
BiCGStab (1992) | Transpose free, smoother convergence than CGS 
TFQMR (1993) Transpose free, smoother convergence than CGS 
FGMRES (1993) 
er CGLS (1982) 最 小 二 乘 (法 方程 ) 


LSQR (1982) 


最 小 二 乘 (法 方程 ) 
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6.9” 预 处 理 技术 


见 备课 笔记 (To be continued... ) 
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6.10” 课 后 习题 


6.1 证 明定 理 6.7 (矩阵 可 约 的 充 要 条 件 ): 
i A € R”, 指标 集 Z = {1,2,...,..,n}. 则 4 可 约 的 充 要 条 件 是 存在 非 空 指标 集 
J C Zn H. J A Zn, EAE 


aij = 0, ie JAJEZ,\ J. 


这 里 Zn \ J ER J E Zn 中 的 补 集 . 


a 1 3 
62 已 知 4=| 1 a 2| € R3”, H Jacobi AS Ka 的 取 值 范围 . 
—3 2 a 


6.3 试 给 出 红 黑 排序 的 模型 问题 的 SOR 算法 的 最 优 参数 wopt- 
6.4 证 明定 理 6.12 (对 称 正定 抢 阵 与 古典 迭代 的 收敛 性 ): 
设 A c 了 "xn 对 称 正定 . 
(1) Æ 2D — A IE, M Jacobi RS; 
(2) #0 < w < 2, Jl] SOR All SSOR 收敛 ; 
(3) G-S 迭代 收敛 . 
6.5 证 明定 理 6.13 (古典 迭代 的 收敛 性 与 矩阵 的 对 称 正定 性 ) 
设 A € 了 "xn 对 称 . 
(1) Æ 2D — 4 正定 且 Jacobi 迭代 收敛 , 则 4 正定 ; 
(2) Æ D E, HFE w e (0,2) 使 得 SOR (EÈ SSOR) 收敛 , 则 A 正定 ; 
(3) 若 D 正定, A G-S HEAR N A 正定 . 


6.6 WIERE A c Cr 是 块 三 对 角 和 矩阵 , 且 主 对 角 块 为 0, 即 


0 Bi 
A 0 B 


Ap 


dna 0 | 


试 证 明 : 矩阵 A(a) 全 aL + ŽU RME a HX (a € C 且 a 了 0), 其 中 工 和 UU 分 别 是 
A 的 下 三 角 和 上 三 角 部 分 . 
6.7 若 存在 非 奇 异 矩 阵 W, (EWU -OW 是 对 称 正定 矩阵 , 则 称 迭 代 算法 


zt = Gr +g, k=0,1,2,... 


是 可 对 称 化 的 . 现 假 定 上 述 迭 代 算法 是 可 对 称 化 的 , 试 证 
(1) G 的 特征 值 全 部 为 实数 , 且 都 小 于 1; 
(2) 存在 +, 使 得 下 面 的 外 推 迁 代 算法 收敛 


oD = (1—7)2 +4(Go +9), k=0,1,2,... 
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6.8 A= 


2D) op pms 
rt 
at) = z) + a(b- Ac), k=0,1,2,.... 


问 : 当 a € R 取 何 值 时 , ECE IAC, TEA IN toe PRE 


6.9 设 A e R”, 
证 明 : p(A) < 1 的 充 要 条 件 是 I 一 AIA, H O- AHI + A) 的 特征 值 具有 正 实 部 . 


6.10 WIERE A, BARES PRAM. 试 证明: AB = BA 的 充 要 条 件 是 存在 正 交 和 矩阵 Q 使 得 


QAQ” =A4, QBQ” = Ap, 


其 中 A4 和 Ap 分 别 表示 由 4 和 B AREETA X ERE. 
6.11 设 A e Rx" 是 对 称 三 对 角 和 矩阵 


计算 矩阵 A 的 特征 值 和 特征 向 量 . 
6.12 设 4 € R"™” 对 称 正定 , B < 及 2"x 列 满 秩 , 试 证 明 BT AB 对 称 正定 . 
6.13 证 明定 理 6.24 中 的 必要 性 . 
6.14 i pi, p2,...,Pm xe A-456 RO, BUS i Æ j IA p? Ap; = 0, 试 证 明 : pi, po,- ,pm 线性 无 关 . 


思考 题 
6.15 设 A € R"*”. 证 明 : p(4) < 1 的 充 要 条 件 是 存在 对 称 正定 矩阵 Pe R?” 使 得 已 - APAT 
正定 . 


第 七 章 “” 特征 值 问题 的 迭代 解法 


当 和 矩阵 规模 很 大 时 , 计算 其 所 有 的 特征 值 和 特征 向 量 是 非常 困难 的 . 而 在 实际 应 用 中 , 我 们 通 


常 也 只 对 其 中 的 某 些 特征 值 和 特征 向 量 感 兴趣 , 因此 也 没 必要 计算 所 有 的 特征 值 和 特征 向 量 . 


由 


Et 


里 


本 章 讨论 计算 部 分 特征 值 和 特征 值 向 量 的 迭代 解法 . 这 些 算法 的 存储 量 要 远 小 于 O(n”), 2 
也 远 小 于 O(n3). 
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7.1 ”投影 算法 
最 简单 的 特征 值 问 题 就 是 仅仅 计算 一 个 特征 值 , 如 计算 模 最 大 的 特征 值 . 这 时 我 们 可 以 使 用 
FIERA. 


算法 7.1 RRR: 计算 最 大 特征 值 


: Given x) 


1 

2: for i = 1,2,..., until converge do 
3. y = Ag!) 

4 r® = y [Ny l2 

5: end for 


FR RO EAR GE rO, x 中,... ,xtm-D) A Krylov 子 空 间 
Km(A, 2) = span a Ax(0,... ae : 


ERER P, 我们 取 a") 为 近似 特征 向 量 . 显然 , 如 果 我 们 在 Km(A, 0) 中 找 出 “最 佳 ” 的 近似 
特征 向 量 , 则 收敛 速度 就 可 能 会 大 大 加 快 . 

下 面 我 们 讨论 如 何在 Km = Km(4,zto) 中 寻找 “最 佳 ” 的 近似 特征 向 量 . 设 A e R”, 并 设 
Km 和 Lm Æ R” 的 两 个 mm 维 子 空间 . 投影 算法 就 是 在 寻找 4 的 近似 特征 对 (和 ,j), 满足 下 面 的 
Petrov-Galerkin 条 件 


find X€ Cand&€ Km suchthat Až — ML Lm. (7.1) 


这 样 的 算法 我 们 称 为 斜 投影 算法 . 如 果 我 们 取 Cr = Km, 则 上 面 的 算法 就 是 一 个 正 交 投影 算法 ， 
此 时 条 件 (7.1) 称 为 Galerkin 条 件 . 
设 vo, U1, .om 1 All W0, W1,+-+,Wm— 1 分 别 是 Km 和 Lm 的 一 组 标准 正 交 基 . D Vm = 
LS 


[v0, U1, +++; Um—1)> Wm = [wo, Wi, ---,Wm—1]- 则 对 任意 E€ Km, 存在 向 量 y € R” 使 得 Viny, 
即 这 可 以 由 wo ,vm-1 线性 表 出 . 根据 条 件 (7.1), 我 们 可 得 
(4V — AVmy, wi) =0, i=1,2,...,m, 
即 
WE AVny = AWEViny. (7.2) 
这 是 一 个 广义 特征 值 问题 . 如 果 我 们 取 Lm = Km S Win = Vins 则 (7.2) 就 化 为 
Tmy = Ay, (7.3) 


FOP Ty = V74V € RO. 这 意味 着 (À, y) 是 矩阵 Tm 的 一 个 特征 对 . 由 于 m 通常 比较 小 , 因此 
我 们 可 以 使 用 先前 讨论 的 方法 (如 QR ER) 来 计算 (A, y). 这 样 我 们 就 可 以 计算 出 4 的 一 个 近似 
特征 对 (A, Z), 其 中 = Viny. 


73% 


7.2 Rayleigh-Ritz 算法 


事实 上 , 我 们 可 以 在 Km (A, c0) 中 找 出 m 个 最 佳 近似 特征 向 量 及 相应 的 最 佳 近似 特征 值 . 
这 些 近 似 特征 值 和 近似 特征 向 量 就 是 Ritz 值 和 Ritz 向 量 . 


定义 7.1 设 Km 是 及 "xn 的 一 个 mm 维 子 空间 , 它 的 一 组 标准 正 交 基 为 v0,vV1,...,vm_1, #4 
Vm = [oo om 1 Tm = Vi AVm, 设 (À, y) 是 Tm 的 一 组 特征 对 , BP Tmy = Ay 且 


lyll2 = 1. 则 我 们 成 入 是 4 的 一 个 Ritz 值 , 郑 = Viny 是 4 的 一 个 Ritz 向 量 . 


Rayleigh-Ritz 算法 就 是 用 Ritz 值 和 Ritz 向 量 来 近似 4 的 特征 值 与 特征 向 量 . 


算法 7.2 Rayleigh Ritz procedure 


1: Compute an orthonormal basis of K: Vin = [vo, V1,---; Um—1]- 

2: Compute the eigenvalues of the matrix Tm = ye AV,,, i.e., the Ritz values of A. 
3: Select k desired ones: Àa, do, ih 入 where k < m. 

4: Compute the eigenvectors y; of Tm associated with Not =1,2,...,k. 


5: Approximate the eigenvectors of A by the Ritz vectors 7; = Vmyi i = 1,2,...,k. 


7.2.1 ”对称 和 矩阵 
这 里 我 们 讨论 4 对 称 时 , Rayleigh Ritz 算法 的 性 质 . 
Vy E Rx" 是 一 个 列 正 交 矩阵 , 上 且 使 得 V = [Vin, Vu] E R E-TECH 于 是 我 
们 有 
VAVn ViAV, 


VI AV = Vins Vu TA Vm, Vu = 
| rel | VAVe VAY, 


由 于 4 对称 的 , 故 Tm = VD AV, E 了 mxm 也 是 对 称 的 . 此 时 , Ritz 值 和 Ritz 向 量具 有 下 面 的 最 优 
性 质 . 


定理 7.1 ACR” 对 称 , 则 对 任意 的 对 称 矩 阵 RER™, 有 


BE || AVin 一 Vin Ella Æ R = Tm 处 取 最 小 值 , 此 时 4 — Vin Billo = VZ AVin|z. 


WEAK. Let R = Tm + Z where Z € R™*™ is symmetric. Note that both A and Tm are symmetric and 
T= V£ AVm we have 


| AVm — Vale = (AVm — Vm R) (AVm — Vm R) 
= 
= ||AVm — Vag — VZ AVmZ + Tm Vi VmZ 

— ZV AVm + ZV VmTm + ZTV} VmZ 
= ||AVm — VinTmlld + |Z| 


.7-4. 


It follows that || AVin — Vin R||3 is minimized when Z = 0 and 


|| AVin — Vin Tmll2 = || VV" AVin — Vin Tn, 


= |V (VY AVn)||, 
= ||VZ AVin 


lz. 


注 : 定理 7.1 中 的 2- 范 数 可 以 改 成 任意 的 酉 不 变 范 数 , 如 下 - 范 数 . 


定理 7.2 设 4 c R?” 对 称 , 并 设 T = UAUT Æ Tm = VI AV, 的 特征 值 分 解 . HQ ER” 
是 满足 span(Q@) = K 的 任意 单位 列 正 交 矩阵, DER” RIRI AEE RA 


#4 Q=V,,U,D=A 时 等 式 成 立 . 


证 明 . 由 于 span(Q) = K = span(Vm), 所 以 存在 矩阵 W < R™*™ 使 得 Q@ = VinW. X Q 是 单位 列 
正 交 的 , 因此 


I= QTQ = (VW VW = WIV VnW = WTW. 


这 表明 W 是 正 交 和 矩阵. i WDW? = Tmn + Z, Wl 


|| AQ — QD||} = |AVnW — VnW DII 
= ||AVin — VinW DWT |3 
= ||AVin — VinTmll3 + |Z| 
> ||AVin — VinTmll3- 
PAR W = U M D = A, M) Z = WDWT —T,, =UAU! — Tan =0. 此 时 上 式 中 的 等 号 成 立 . O 
定理 7.2 表明 , 在 所 有 满足 span(Q) = K AMI EZE Q e 了 "xm AE AY XT FA E RE 
D € R” #, 4 Q = VmU Al D = AM, || AQ — QD. RE MA. 


定理 7.1 和 定理 7.2 表明 ,在 | AQ — QD] 2 极 小 的 意义 下 , Ritz 值 是 特征 值 的 “最 佳 " 近似 . 所 
以 我 们 用 Ritz 值 作为 特征 值 的 近似 是 有 道理 的 . 


J-e 


7.3 Lanczos 算法 


设 A e RX" 是 对 称 矩 阵 . Lanczos 就 是 利用 Lanczos 算法 来 计算 Km EM Tm = VE AVm 
然后 计算 4 的 Ritz 值 和 Ritz 向 量 . 


算法 7.3 Lanczos Algorithm 


1: Choose a vector vo such that ||v|| = 1, and set 60 = 0 
2: for j = 0,1,...do 
3: Compute w = Av; — Bjvj-1 


Qj+1 = (w, vj) 


ia 


5 wW = W — 04410; 
6 Bi+1 = |lwll2 

7: if Bj+1 = 0 then 
8 

9 


stop 
end if 
10: vjy = W/Bj41 
11: Compute the eigenvalues and eigenvectors of T} 
12: Check the convergence 
13: end for 


在 Lanczos 算法 7.3 中 , HECK m 步 后 , 向 量 vo, v1,- , Um—1 构成 子 空 间 
Km(A, vo) = span {vo, Avo,..., A™ 1v0}, 
的 一 组 基 , 并 且 有 
AVm = VinTn + Bmvmed,, 
其 中 em = [0,0,...,0,1]7 € R”, 
al By | 


Tm = Vi AVm = fı 


设 (À, y) BE Tm 的 一 个 特征 对 , 则 有 


A(Viny) = VmImy 十 Bnvmedy = Wan + Bm (Eny)Um- 


Az — Mr = Brn(€m¥)Um, 
即 
|| Ax — Azlla = [Bm (ety)), 


其 中 = Viny. WR [Bm ley) 很 小 , 则 我 们 就 认为 和 是 4 的 某 个 特征 值 的 很 好 的 近似 . 事实 上 ， 
关于 Ritz 值 ,我 们 有 下 面 的 性 质 . 


引 理 7.1 设 4e 了 nx 是 对 称 矩 阵 , Hr = Ar 一 Xz, HE ro. N 


IIrll2 


min | 入 一 入 | < 
和 Xec(4) zl 


其 中 o(A) 表示 4 的 谱 , 即 所 有 特征 值 组 成 的 集合 . 


WEAR. 设 A = UAUT 是 矩阵 A 的 特征 值 分 解 . 则 
r=(A—-ADNz= U(A — ADU r. 


WA = diag(à1, A2,..., An). 对 任意 向 量 z = [21, 22,...,2n]" CRA 


n 


ICA = AD zll? = SOQ A? 


i=l 

> in | 入 一 入 |2z2 

2 > ain | |z 

一 ||zll2 min | 入 一 入 |2. 

| zll2 a | | 
所 以 


lrll2 = U7 elle = (A -ADUTall2 > Uz min JA- À| = rl: min JA- àl]. 
AEa(A) NEa(A) 


由 引 理 7.1 可 知 , 存在 4 的 某 个 特征 值 ,使 得 


y jj < EER mlle _ [Bl lea 
S vl lull 


= |Bm| *\eq tll: (7.4) 


TE: 在 前 面 的 讨论 中 , 我 们 都 没有 考虑 实际 计算 时 可 能 的 误差 . 在 实际 计算 中 , 由 于 浮 点 运算 的 误 
差 , BE m {RD (AHU m = 10 Bm = 20), 也 可 能 会 导致 向 量 {vi} 失去 正 交 性 . 这 时 我 们 必须 采取 
一 些 补救 措施 , 最 简单 的 方法 就 是 对 它们 重新 来 一 次 正 交 话 , 即 在 算法 7.3 的 第 5 步 后 加 上 一 条 语 
名 


J 
w =w -— Do Vi ) Vi. 


i=1 
这 个 过 程 就 称 为 带 全 正 交 过 程 的 Lanczos 算法 . 显然 , 这 个 过 程 是 非常 费时 的 . 
男 外 一 个 可 行 的 方法 就 是 选择 性 正 交 . 
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7.4 Arnoldi 算法 


这 里 考虑 非 对 称 情形 , BUTE REE A 的 特征 值 . 与 Lanczos 算法 的 思想 相 类 似 , 我 们 可 
以 使 用 Arnoldi 算法 , 即 通过 Arnoldi 算法 计算 Km 的 标准 正 交 基 vo, 01, ..., Um—1 和 上 Hessenberg 
矩阵 Hm = VE AVm, 使 得 


AVm = VnHmn+hmiimumes, and V AV = Hm. 


但 此 时 Hm 只 是 上 Hessenberg, 而 不 是 对 称 三 对 角 . 但 我 们 同样 可 以 通过 计算 Hm 的 特征 值 和 特 
征 向 量 来 得 到 A 的 Ritz 值 的 Ritz 向 量 , 并 用 它们 来 近似 4 的 特征 值 和 特征 向 量 . 
BE (A, y) 是 Hm 的 一 个 特征 对 ,其 中 |ylla = 1 则 


A(Vmy) = VmHmy + hmiimvmedy = MWY + Rmttm(Cny)Um 


所 以 


|| Ax — zl = Prim(ezoomlla = |Rm+1,ml ez 


其 中 z = Viny. 4 |hm+iml :lehy| 足够 小 ,我 就 认为 (和 ,zx) 是 A 的 某 个 特征 对 的 近似 . 


算法 7.4 Arnoldi Algorithm 


1: Choose a vector vo such that ||v||2 = 1 
2: for j = 0,1,...do 

3: Compute wj+1 = Av; 

4 fori—0,1,...,jdo 


5 hij = (wj+1; vi) 
6 Wj41 = Wj+1 — hijvi 
7: end for 
8 hji = |lwj+ille 
9 if hj+1,j = 0 then 
10: stop 
11: end if 
12: Vj+1 = Wir1/ hj+1 
13: Compute the eigenvalues and eigenvectors of T} 
14: Check the convergence 
15: end for 


由 于 4 是 非 对 称 的 , 其 特征 值 可 能 是 复 的 , 或 者 是 坏 条 件 的 , 此 时 Lanczos 算法 的 一 些 最 优 性 
质 就 不 再 成 立 . 尽快 如 此 , 目前 还 是 存在 一 些 有 效 Arnoldi 算法 的 实现 方式 , 可 参见 [26, 34, 35]. 
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7.5 AEXT#R Lanczos 算法 
非 对 称 Lanczos 算法 就 是 Lanczos 算法 在 非 对 称 和 矩阵 上 的 推广 , 它 是 基于 Lanczos 双 正 交 化 过 


设 vo 和 wo 是 任意 的 非 零 向 量 ， 并 设 
Km(A, vo) = span{vo, Avo,..., A™ tvo} 


和 


Km( AT, wo) = span{wo, ATwo,..., (AT)™ lwo}. 


Lanczos 双 正 交 化 过 程 就 是 计算 Km,(4,vo) Fl Km (A, wo) 的 基 {vi} 和 {wi}, 满足 {vi} 和 {wi} 相 


互 正 交 , 即 
0，i 关 7 
(vi, wj) = | 
l, i=j 
所 以 
WIVn =I, 
其 中 Vrn = [vo, V1, - Pars “Umil; Wm = [wo, w1, E Oma: 


注意 , WAY {ui} BY {wy} 本 身 并 不 一 定 正 交 , 故 Vin 和 Win, 通常 并 不 列 正 交 . 
根据 Lanczos 双 正 交 化 过 程 ,我 们 可 得 
AVm = VinTm + Vim Um Cons 
LWW, topline, 


m? 


al fy 


= 
Bm-1 


Ym-1 Am 


e] 
ae 


所 以 
WL AVin = Wales 十 tm (WrUm)em = Tm. 


BEN FE Tm 的 特征 值 , 其 对 应 的 右 特征 向 量 和 左 特征 向 量 分 别 为 y 和 zz, FL Iyl = Izl = 1, 即 


Tmy =dy and ziT,= Ml. 


于 是 有 
AVmy = VnTmy + Tomezy = AViny + Yme, YVm, 
(Wmz)? A = (AT Wz)? = (WmT£ 2)! + Bmned zwi = \Wmz)? + Bmet zwi. 


4 [mle F bme | 足够 小 ,我 们 就 认为 和 是 4 的 某 个 特征 值 的 近似 , 而 Vy 和 Wirz 就 是 
相应 的 右 特征 向 量 和 左 特征 向 量 的 近似 . 


算法 7.5 Nonsymmetric Lanczos Algorithm 


1: Choose two vectors vo and wo such that (vo, wo) = 1 


2: Set 6o = 0 and y = 0 
3: for j = 0,1,...do 


4: Compute aj+41 = (Avj, w;) 

5: Oj41 = Av; — agai; — PBjvj-1 

6: Wj+1 一 AT w; — Qj Wj — VjWj-1 
e = \Oj41, Wyo)? 

8: if VjH = 0 then 

9: stop 

10: end if 

11: Bia = (V41, Da) 

12: Vj+1 = Dj41/Yi+1 

13: Wy = Ūj+1/bj+1 

14: Compute the eigenvalues and eigenvectors of T} 
15: Check the convergence 

16: end for 
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非 对 称 Lanczos 算法 的 显著 优点 就 是 节省 运算 量 , 缺点 是 更 容易 被 中 断 . 
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